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软 硬 件 协同 设计 发 挥 多 核 性 能 为 最 终 目标 。 另 外 ， 本 版 与 时 俱 进 地 使 用 了 如 ARM Cortex A8 和 Intel 
Core i7 等 现代 设计 来 说 明 计 算 机 设计 的 基本 原理 。 
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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 
个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 非 
出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 学 科 中 
的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 璧 划 了 研究 
的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流 
逝 而 减退 。 | 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 益 
迫切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显 
得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 
几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 
将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 
大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 开始 ， 我 们 就 将 工 
作 重点 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我们 与 Pearson，McGraw- 
Hill ,Elsevier，MIT, John Wiley & Sons ，Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ， 
从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum,， Bjarne Stroustrup ，Brain W. Kernighan ， 
Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft ，Jeffrey D. Ullman, Abraham Silberschatz, 
William Stallings ，Donald E. Knuth, John L. Hennessy, Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 
品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 
正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 
国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书” 已 经 出 版 了 近 两 百 个 
品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 其 影 
印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 图 
书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 
教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反 
馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工作 提出 
建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 . www. hzbook. com = 
电子 邮件 : hzjsj@ hzbook. com | 
联系 电话 : (010) 88379604 
联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 华章 教育 


邮政 编码 ; 100037 华章 科技 图 书 出 版 中 心 


本 书 赞誉 | 
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教材 的 选择 是 一 个 非常 令 人 诅 丧 的 折衷 过 程 一 一 教学 方法 、 内 容 的 覆盖 面 、 行 文 造 句 的 质 
量 、 描 述 的 精确 程度 、 成 本 等 都 需要 考虑 。 这 是 一 本 不 需要 在 这 些 方面 进行 折衷 上 且 涉 及 各 个 方 
面 的 书 。 它 不 仅 是 一 部 计算 机 组 成 的 教科 书 ， 也 是 所 有 计算 机 科学 教科 书 的 范本 。 

Michael Goldweber，Xavier 大 学 





从 第 1 版 开始 ， 我 已 经 使 用 本 书 很 多 年 了 。 第 5 版 在 现 有 的 经 典 内 容 上 做 了 显著 的 改进 。 
从 桌面 计算 到 移动 计算 再 到 大 数据 ， 技 术 的 发 展开 辟 了 新 的 研究 领域 ， 包 括 ARM 之 类 的 能 人 
式 处 理 器 、 软 件 和 硬件 如 何 进行 交互 以 提高 性 能 以 及 云 计 算 等 ， 这 些 在 本 版 中 都 有 所 体现 ， 且 
没有 牺牲 基础 知识 的 内 容 。 


一 一 Ed Harcourt，St. Lawrence 大 学 


这 是 一 本 应 该 保存 在 书架 上 的 计算 机 体系 结构 的 教材 。 本 书 既 陈旧 又 新 颖 ， 因 为 它 不 但 介 
绍 了 基本 原理 一 一 摩尔 定律 、 抽 象 、 加 速 大 概率 事件 、 宛 余 、 存 储 器 层级 、 并 行 和 流水 线 ， 也 
使 用 如 ARM Cortex A8 和 Intel Core i7 等 现代 设计 对 这 些 基本 原理 进行 了 说 明 。 
一 一 Mark D. Hill ，Wisconsin-Madison 大 学 





第 5 版 与 先进 代 人 式 和 众 核 (GPU) 系统 的 发 展 保持 同步 ， 它 们 的 发 展 使 平板 电脑 和 智能 
手机 很 快 变 成 新 的 桌面 电脑 。 本 书展 示 了 这 些 变化 ， 并 提供 了 丰富 的 计算 机 组 成 与 设计 的 基本 
原理 ， 这 些 内容 对 于 这 类 新 型 设备 和 系统 的 软 硬 件 设计 人 员 来 说 非常 有 用 。 


Dave Kaeli ，Northeastern 大 学 





当前 ， 半 导体 加 工 工艺 按 比例 缩小 的 困难 在 于 系统 功 耗 的 限制 ， 在 移动 系统 和 大 数据 处 理 
器 领域 ， 该 限制 与 不 断 增长 的 性 能 需求 之 间 的 矛盾 越 来 越 尖 锐 。 第 5 版 除了 为 读者 提供 计算 机 
体系 结构 的 介绍 ， 还 为 读者 准备 了 为 应 对 该 矛盾 而 必须 在 设计 方面 做 出 的 修改 。 在 这 个 计算 技 
术 的 新 领域 ， 必 须 进行 软 硬 件 协同 设计 ， 另 外 ， 系 统 级 体系 结构 优化 与 部 件 级 优化 一 样 重要 。 

一 一 Christos Kozyrakis ，Stanford 大 学 


Patterson 和 Hennessy 非常 英明 地 指出 持续 发 展 的 计算 机 硬件 结构 中 的 问题 ， 强 调 硬 件 和 软 
” 件 模块 在 不 同 抽象 层次 上 的 交互 。 第 5 版 通过 一 系列 软 硬 件 间 的 机 制 将 VO 和 并 行 概念 贯穿 全 
书 ， 对 后 PC 时 代 的 计算 机 体系 结构 进行 了 全 面 的 展示 。 对 于 在 平板 PC 和 云 计算 中 面临 能 效 
问题 和 并 行 性 挑战 的 软件 和 硬件 专家 而 言 ， 本 书 是 一 部 必 备 的 指导 书 。 

Jae C. Oh，Syracuse 大 学 





| 译 者 序 
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D. Patterson 和 J. Hennessy 是 计算 机 领域 的 知名 学 者 ， 为 计算 机 学 科 和 产业 的 发 展 做 出 了 巨 
大 贡献 ， 他 们 合 著 的 《Computer Organization and Design: The Hardware/Software Interface》 一 书 
现 已 发 行 了 第 5 版 。 该 书 对 计算 机 组 成 的 研究 和 设计 实践 进行 了 全 面 系统 的 总 结 。 目 前 ， 国 际 
上 许多 大 学 的 计算 机 原理 或 计算 机 体系 结构 课程 都 采用 这 本 教材 ， 国 内 也 有 不 少 大 学 采用 这 本 
教材 。 

第 5 版 在 保持 计算 机 组 成 方面 传统 论题 以 及 前 4 版 特点 的 基础 上 ， 引 入 了 许多 近 几 年 计算 
机 领域 发 展 的 新 论题 ， 如 移动 计算 、 大 数据 等 。 另 外 ， 在 实例 方面 也 与 时 俱 进 地 采用 ARM 
Cortex A8 和 Intel Core i7 等 现代 设计 对 计算 机 组 成 的 基本 原理 进行 说 明 。 

感谢 机 械 工业 出 版 社 华章 公 司 一 直 关 注 本 书 的 引进 和 中 译本 的 出 版 工作 ， 姚 莹 编辑 和 朱 秀 
英 编辑 为 中 译本 的 翻译 工作 提出 了 大 量 宝贵 意见 。 

感谢 清华 大 学 郑 纬 民 教 授 对 前 3 版 中 译本 所 做 的 工作 ， 是 他 使 得 这 本 重要 教材 在 国内 有 了 
广泛 的 读者 。 感 谢 西 北 工业 大 学 康 继 昌 教授 、 攀 晓 醒 教 授 和 安 建 峰 副 教授 对 第 4 版 中 译本 所 做 
的 工作 ， 是 他 们 使 得 第 5 版 的 翻译 有 了 很 好 的 基础 ， 另 外 ， 康 继 昌 教授 和 安 建 峰 副教授 也 参与 
了 本 版 的 翻译 工作 。 

西北 工业 大 学 计算 机 学 院 的 研究 生 赵 硕 、 刘 朝 锋 、 庄 森 、 马 侈 、 朱 迪 、 朱 艳 娜 等 也 参加 了 
本 书 的 翻译 和 校对 工作 。 本 书 的 翻译 工作 还 得 到 了 国家 自然 科学 基金 项 目 (No. 61472322) 的 
支持 。 

由 于 译 者 水 平 有 限 ， 书 中 难免 存在 一 些 翻译 不 当 或 理解 欠 妥 的 地 方 ， 希 望 读者 批评 指正 。 


王 党 辉 
2015 年 2 月 于 西北 工业 大 学 


前 言 | 
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我 们 能 体验 的 最 姜 好 的 事物 是 神秘 ， 它 是 所 有 真正 的 艺术 和 科学 的 源泉 。 
阿尔 伯 特 ， 爱 因 斯 坦 , 《我 的 信 爷 》，1930 





关于 本 书 


在 学 习 计 算 机 科学 与 工程 时 ， 除 了 掌握 计算 的 基本 原理 外 ， 还 应 该 了 解 该 领域 的 最 新 进 
展 。 各 种 计算 领域 中 的 读者 应 有 机 会 学 习 计算 机 系统 的 组 成 理论 ， 因 为 这 是 决定 计算 机 系统 的 
功能 、 性 能 甚至 成 功 与 否 的 关键 。 

现代 计算 机 技术 需要 各 种 计算 方面 的 专家 ， 他 们 应 对 硬件 和 软件 都 有 深入 的 理解 。 硬 件 和 
软件 在 多 个 层次 上 的 相互 关系 成 为 理解 计算 基本 原理 的 框架 。 无 论 你 的 主要 兴趣 是 硬件 还 是 软 
件 ， 是 计算 机 科学 还 是 电气 工程 ， 计 算 机 组 成 与 设计 的 基本 思想 都 是 相同 的 。 因 此 ， 本 书 着 重 
展示 硬件 与 软件 的 关系 ， 并 重点 介绍 当今 计算 机 中 的 基础 概念 。 

近年 来 ， 处 理 器 已 经 由 单 核发 展 为 多 核 ， 这 也 印证 了 本 书 自 第 1 版 就 预测 的 发 展 趋势 。 有 些 
程序 员 忽略 了 这 一 发 展 趋势 ， 他 们 希望 计算 机 体系 结构 专家 、 编 译 器 设计 者 和 芯片 工程 师 能 够 帮 
助 他 们 ， 让 程序 不 做 任何 修改 就 可 以 更 快 或 更 高 效 地 在 新 型 处 理 器 上 运行 。 但 是 ， 这 样 的 时 代 已 
经 一 去 不 返 了 。 为 了 使 程序 运行 得 更 快 ， 必 须 将 其 并 行 化 。 然 而 ， 许 多 研究 者 的 目标 是 希望 程序 
员 在 编写 程序 时 不 需要 考虑 硬件 的 并 行 特征 ， 这 一 目标 要 很 多 年 才能 实现 。 至 少 在 下 一 个 十 年 
里 ， 大 多 数 程序 员 必须 理解 硬件 /软件 接口 ， 才 能 编写 出 能 在 并 行 计算 机 上 高 效 运行 的 程序 。 

本 书 适合 以 下 读者 : 在 汇编 语言 或 逻辑 设计 方面 只 有 少许 经 验 ， 需 要 理解 基本 计算 机 组 成 
的 读者 ; 具有 汇编 语言 或 逻辑 设计 的 基础 ， 需 要 学 习 如 何 设计 计算 机 , 或 者 要 进一步 理解 计算 
机 系统 如 何 工作 的 读者 。 


与 本 书 相关 的 另 一 本 书 


有 些 读 者 可 能 已 经 熟悉 作者 的 另 一 本 书 《Computer Architecture: A Quantitative Ap- 
proach》2 。 该 书 已 广 为 流 传 ， 经 常 以 作者 姓名 命名 ， 称 为 “Hennessy and Patterson” (本 书 则 常 
称 为 “Patterson and Hennessy”) 。 我 们 写 该 书 的 目的 是 要 用 坚实 的 工程 基础 和 量化 的 性 价 比 权 
衡 来 描述 计算 机 体系 结构 的 原理 。 我 们 以 商用 系统 为 例 ， 用 测量 的 方法 来 描述 实际 的 设计 经 
验 。 我 们 的 目标 是 用 量化 的 方法 而 不 是 用 描述 的 方法 学 习 计 算 机 体系 结构 ， 和 希望 这 一 方法 有 助 
于 培养 能 精确 理解 计算 机 的 专业 人 才 。 

本 书 的 大 多 数 读者 并 不 一 定 要 成 为 计算 机 体系 结构 的 设计 者 。 但 是 ， 未 来 软件 设计 人 员 对 
与 软件 系统 协同 工作 的 基本 硬件 技术 的 理解 程度 ， 将 直接 影响 软件 系统 的 性 能 和 能 效 。 因 此 ， 
编译 器 设计 者 、 操 作 系统 设计 者 、 数 据 库 程 序 员 以 及 其 他 大 多 数 软件 工程 师 对 本 书 的 原理 必须 
有 充分 的 了 解 。 同 样 ， 硬 件 设 计 者 也 必须 清楚 地 理解 他 们 的 工作 对 软件 的 相应 影响 。 

所 以 ， 本 书 的 内 容 远 多 于 “Hennessy and Patterson”， 而 且 进 行 了 大 量 修订 ， 以 适应 不 同 专 
业 的 读者 。 我 们 对 再 版 “Hennessy and Patterson” 时 删除 的 大 量 介 绍 性 材料 的 效果 感到 满意 ， 
这 使 得 新 版 与 第 1 版 内 容 的 重 释 大 大 降低 ， 本 书 亦 如 此 。 





加 机械 工业 出 版 社 已 出 版 了 本 书 的 第 3 版 、 第 4 版 和 第 5 版 影印 书 ， 书 名 为 《计算 机 体系 结构 : 量化 研究 方 
法 》。 编辑 注 





第 5 版 的 变化 


第 5 版 有 6 个 主要 的 目标 : 使 用 运行 例子 的 方法 论证 理解 硬件 的 重要 性 ; 对 前 面 已 经 提 到 
的 重要 技术 采用 黑体 的 方式 进行 强调 ; 对 例子 进行 了 更 新 ， 以 反映 从 PC 时 代 到 后 PC 时 代 的 
发 展 ; 将 IO 吞吐 率 方面 的 材料 贯穿 在 整 本 书 中 ， 而 不 是 集中 在 一 章 中 ; 对 技术 内 容 进行 了 更 
新 ， 以 反映 自 2009 年 第 4 版 出 版 以 来 工业 界 的 变化 ; 将 附录 和 可 选 章节 (目录 中 带 有 琵 图 标 
的 章节 ) 的 内 容 放 在 互联 网 上 (booksite. elsevier. com/9780124077263/index. php ) ， 而 不 是 放 在 
CD 上 ， 降 低 了 本 书 的 成 本 ， 也 使 该 版 本 变 成 了 一 部 电子 书 。 

在 详细 介绍 第 5 版 的 修订 目标 之 前 ， 首 先 看 下 表 。 该 表 给 出 了 本 书 的 主要 内 容 ， 并 为 关注 
硬件 和 关注 软件 的 两 种 读者 分 别 进行 了 导读 。 其 中 , 第 1、4、5 和 6 章 对 两 种 读者 同等 重要 。 
第 1 章 讨论 了 能 耗 的 重要 性 和 由 其 引发 的 处 理 器 从 单 核 向 多 核 的 转变 ， 并 介绍 了 计算 机 设计 中 
的 8 个 伟大 思想 。 第 2 章 对 于 硬件 读者 来 说 很 可 能 是 复习 性 材料 ， 而 对 于 软件 读者 来 说 则 是 重 
要 的 阅读 材料 ， 特 别 是 希望 深入 学 习 编 译 器 和 面向 对 象 编 程 语 言 的 读者 。 第 3 章 适合 对 定点 运 
算 或 者 浮 点 运算 感 兴趣 的 读者 ， 有 些 读者 可 能 不 需要 学 习 第 3 章 。 然 而 ， 我 们 将 在 本 章 介 绍 拢 
阵 乘法 运行 的 例子 ， 展 示 如 何 采 用 子 字 并 行 方法 将 性 能 提高 4 倍 ， 因 此 不 要 跳 过 3.6 ~3.8 节 。 
第 4 章 介 绍 了 流水 线 处 理 器 。 其 中 , 4. 1、4.5 和 4. 10 节 给 出 了 流水 线 概述 ，4. 12 节 给 出 了 进 
一 步 提高 矩阵 乘法 运算 性 能 的 方法 ， 这 些小 节 对 于 软件 设计 者 来 说 比较 重要 。 对 于 硬件 设计 
者 ， 第 4 章 是 核心 内 容 。 另 外 ， 根 据 读 者 知识 背景 的 不 同 ， 可 以 选择 是 否 首先 阅读 附录 C 中 的 
逻辑 设计 部 分 。 最 后 一 章 是 多 核 、 多 处 理 器 和 集群 系统 ， 这 一 章 是 全 新 的 内 容 ， 因 此 所 有 读者 
都 应 该 阅读 。 本 版 的 重要 组 织 结构 是 使 许多 思想 的 引入 更 加 自然 ， 例 如 GPU、 仓 储 式 计算 机 和 
集群 系统 中 的 关键 一 一 网 络 接口 卡 的 软 硬 件 接口 。 


ET 






















































































wm 
第 1 章 计算 机 概要 与 技术 ee 2 
wr we 
第 2 章 指令 : 计算 机 的 语言 i a A 5 
贸 2.21 (历史 ) 双双 ex 

附录 下 ”RISC 指令 集体 系 结构 晤 了 1~E.17 WC 
3.1-3.5 A™4 A=4 

村 3.6~3.8 行 

第 3 章 计算 机 的 算术 运算 a hd SE 
留 3.11 (历史 ) we re 
附录 B 逻辑 设计 基础 B.1~B.13 ”Aw 
4.1 (引言 ) "Er bd 
4.2 (逻辑 设计 惯例 ) we 
4.3 ~4.4 (简单 实现 ) A re 
4.5 (流水 线 概述 ) we ey 
4.6 (流水 线 数据 通路 ) bd bd 
Pe 4.7 ~4.9 (冒险 和 异常 ) FE 
4.10 ~4.12 (并 行 和 实例 ) | ww | we 
贸 4. 13 (Verilog 流水 线 控制 ) we 
4.14 ~4.15 ( 廖 误 ) pb” A .4 Te 
贸 4.16 (历史 ) Ad Zr 








il 

















附录 D 控制 通路 的 硬件 实现 鸳 D.1~D.6 
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第 5 版 的 第 一 个 目标 是 使 用 一 个 例子 来 论证 理解 硬件 对 提高 性 能 和 能 效 的 重要 性 。 正 如 前 
面 所 述 ， 在 第 3 章 ， 我 们 采用 子 字 并 行将 矩阵 乘法 加 速 4 倍 ,在 第 4 章 通 过 循环 展开 将 性 能 翻 
倍 ， 证 明了 指令 集 并 行 的 价值 。 第 5 章 通过 分 块 技术 对 cache 进行 优化 ， 再 次 将 性 能 翻 倍 。 第 
6 章 通 过 在 16 个 处 理 器 上 的 线程 级 并 行 获得 了 14 倍 的 加 速 比 。 这 4 种 优化 技术 仅仅 在 原始 的 
和 矩阵 乘法 例子 中 的 C 代码 上 增加 了 24 行 。 

第 二 个 目标 是 通过 提早 介绍 计算 机 体系 结构 设计 中 的 8 个 伟大 思想 并 在 整 本 书 中 明确 指出 
它们 的 应 用 之 处 来 帮助 读者 理解 计算 机 设计 的 精髓 。 我 们 采用 黑体 文字 的 方式 向 读者 提醒 这 8 
个 思想 的 应 用 情况 ， 在 书 中 大 约 有 100 次 引用 。 每 一 章 中 至 少 有 7 处 应 用 这 些 思想 的 例子 ， 并 
且 每 个 思想 至 少 被 引用 5 次 。 通 过 并 行 提 高 性 能 、 流 水 线 和 预测 技术 是 引用 次 数 最 多 的 3 个 思 
想 ， 紧 接着 是 摩尔 定律 。 第 4 章 讲述 处 理 器 ， 是 例子 最 多 的 一 章 ， 也 是 最 吸引 计算 机 设计 者 的 
一 章 。 每 一 章 都 能 找到 的 伟大 思想 是 通过 并 行 提 高 性 能 ， 这 是 近年 来 计算 机 领域 中 的 一 个 重要 
发 展 方向 。 

第 三 个 目标 是 通过 例子 和 材料 来 识别 计算 技术 从 PC 时 代 进 入 后 PC 时 代 的 变化 。 因 此 ， 
第 1 章 直接 介绍 了 平板 电脑 而 没有 介绍 PC， 第 6 章 介绍 了 云 计算 的 基础 设施 。 另 外 ， 在 指令 
集 方 面 ， 我 们 介绍 了 后 PC 时 代 中 个 人 移动 设备 里 使 用 的 ARM 指令 集 ， 以 及 在 PC 时 代 和 云 计 
算 中 占 主导 地 位 的 x86 指令 集 。 

第 四 个 目标 是 将 LO 吞吐 率 方面 的 材料 贯穿 在 整 本 书 中 ， 而 不 是 集中 在 一 章 中 ， 这 与 第 4 
版 中 将 并 行 性 贯穿 全 书 一 样 ， 因 此 ， 本 版 可 在 1.4、4.9、5.2、5.5、5. 11 和 6.9 节 中 找到 IO 
相关 的 材料 。 我 们 的 想法 是 如 果 不 把 这 些 内 容 集中 在 一 章 ， 则 读者 (和 教师 ) 能 更 好 地 学 习 
与 掌握 IO。 

计算 机 是 一 个 快速 发 展 的 领域 ， 对 于 本 书 新 的 版 本 也 是 如 此 ， 编 写 新 版 的 一 个 重要 目的 是 
更 新 技术 内 容 。 实 际 的 例子 就 是 反映 后 PC 时 代 特 点 的 ARM Cortex A8 和 Intel Core 这 ， 其 他 的 
亮点 包括 新 的 ARMv8 64 位 指令 集 、 讲 解 GPU 特有 术语 的 教程 、 组 成 云 的 仓储 式 计算 机 的 内 涵 
以 及 对 10G 以 太 网 卡 的 深入 理解 。 

为 了 保持 纸 质 书 的 厚度 及 其 与 电子 书 的 兼容 性 ， 我 们 一 改 以 前 版 本 的 做 法 ， 将 可 选 内 容 由 
随 书 CD 改 为 网 络 在 线 的 形式 。 

最 后 ， 我 们 更 新 了 本 书 的 所 有 练习 题 。 











第 5 章 ”大 容量 和 高 速度 : 开发 存储 器 层次 结构 

















第 6 章 从 客户 端 到 云 的 并 行 处 理 器 


















IX 


在 对 内 容 进行 修订 的 同时 ， 我 们 保留 了 以 往 版 本 中 有 用 的 元 素 。 为 使 本 书 更 好 地 作为 参考 
书 ， 我 们 还 在 新 术语 第 一 次 出 现时 给 出 了 定义 。 书 中 标题 为 “理解 程序 性 能 ”部 分 的 内 容 有 
助 于 读者 理解 程序 的 性 能 ， 以 及 如 何 提高 性 能 ， 就 像 书 中 “硬件 /软件 接口 ”部 分 会 帮助 读者 
理解 有 关 接 口 的 权衡 问题 一 样 。“ 重 点 ”部 分 仍然 存在 ， 以 使 读者 看 到 整个 “森林 ” 而 不 是 每 
一 棵 “ 树 "。 每 章 最 后 提供 “小 测验 ”部 分 的 答案 ， 帮 助 读 者 在 第 一 时 间 加 强 对 内 容 的 理解 。 
本 版 同样 提供 了 MIPS 参考 数据 (这 是 从 IBM System/360“ 绿 卡 ” 得 到 的 灵感 ) ， 并 对 数据 进 
行 了 更 新 ， 在 编写 MIPS 汇编 语言 程序 时 ， 这 应 该 是 一 个 很 好 的 参考 。 


教学 支持 


我 们 收集 了 大 量 材料 供 教师 授课 使 用 ， 包 括 题解 、 图 表 、 幻 灯 片 等 ， 可 从 出 版 商 处 获得 。 
如 需 更 多 信息 ， 请 访问 网 址 : textbooks. elsevier. com/9780124077263 。 


结语 


从 下 面 的 致谢 中 ， 你 可 以 发 现 我 们 花费 了 大 量 精力 去 修改 本 书 的 错误 。 由 于 本 书 印刷 了 多 
次 ， 因 此 我 们 有 机 会 做 更 多 的 校正 。 如 果 你 发 现 有 遗留 的 错误 ， 请 通过 电子 邮件 与 出 版 社 联 
系 : cod5bugs@ mkp. com。 

本 版 标志 着 Hennessy 和 Patterson 自 1989 年 以 来 长 期 合作 的 第 二 次 中 止 。 由 于 要 管理 一 所 
世界 知名 的 大 学 ，Hennessy 校长 将 不 能 继续 承担 新 版 本 的 实际 编写 工作 。 留 下 Patterson 一 人 感 
觉 自己 像 个 总 是 和 伙伴 们 一 起 演出 的 演员 ， 突 然 被 推 到 前 台独 自 表演 。 所 以 ， 在 致谢 名 单 中 列 
出 的 人 和 Berkeley 的 同行 们 在 本 书 的 撰写 过 程 中 其 至 起 了 更 大 的 作用 。 


第 5 版 致谢 


在 本 书 的 每 一 版 中 ,我 们 都 非常 幸运 地 得 到 了 来 自 许多 读者 、 评 审 者 和 其 他 人 员 的 帮助 。 
每 个 人 的 帮助 都 使 本 书 更 加 完美 。 

由 于 第 6 章 做 了 巨大 的 修改 ， 因 此 我 们 对 其 思想 和 内 容 进 行 了 单独 的 评审 ， 并 基于 每 位 评 
审 人 的 反馈 意见 做 了 修改 。 感 谢 Stanford 大 学 的 Christos Kozyrakis， 他 建议 在 集群 中 使 用 网 络 接 
口 来 论证 VO 的 软 硬 件 接口 ， 并 对 该 章 的 组 织 提出 了 意见 。 还 要 感谢 Stanford 大 学 的 Mario 
Flagsilk ， 他 提供 了 NetFPCA NIC 的 细节 、 表 格 以 及 性 能 评估 。 另 外 ， 以 下 人 员 对 本 章 提 出 了 修 
改建 议 : Northeastern 大 学 的 David Kaeli、HP 实验 室 的 Partha Ranganathan 、Wisconsin 大 学 的 
David Wood 以 及 Berkeley 大 学 的 同事 Siamak Faridani、Shoaib Kamil、Yunsup Lee、Zhangxi Tan 
和 Andrew Waterman。 

我 们 要 对 UC Berkeley 的 Rimas Avizenis 表示 特别 的 感谢 ， 他 开发 了 不 同 版 本 的 矩阵 乘法 程 
序 ， 并 提供 了 相应 的 性 能 数据 。 当 我 在 UCLA 读 研 究 生 时 ， 我 与 他 的 父亲 一 起 工作 ， 能 够 与 他 
一 起 在 UCB 共事 是 一 件 美好 的 事情 。 

我 也 要 对 我 的 长 期 合作 伙伴 一 一 UC Berkeley 的 Randy Katz 表示 感谢 。 我 们 共同 讲授 研究 生 
的 计算 机 体系 结构 课程 ， 他 在 开发 计算 机 体系 结构 的 伟大 思想 方面 提供 了 很 大 的 帮助 。 
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| 第 1 章 


Computer Organization and Design: The Hardware/Software Interface 


计算 机 概要 与 技术 





在 不 关注 具体 过 程 的 情况 下 完成 更 多 的 重要 捍 作 ,这 种 方法 但 进 了 文明 的 进步 。 
一 一 Nad North Whitehead, 《An Introduction to Mathematics) , 1911 


1.1 引言 


欢迎 阅读 本 书 ! 非常 高 兴 有 机 会 与 大 家 一 起 分 享 令 人 兴奋 的 计算 机 系统 世界 。 这 是 一 个 进 
步 飞快 、 新 思想 层出不穷 、 非 常 有 趣 的 领域 。 事 实 上 ， 计 算 机 是 极度 充满 生气 的 信息 技术 工业 
的 产物 ， 其 相关 产品 几乎 占 全 美国 民生 产 总 值 的 10% 。 在 摩尔 定律 的 推动 下 ， 美 国 的 经 济 已 
经 与 信息 技术 密 不 可 分 。 这 个 不 寻常 的 工业 具有 惊人 的 发 展 速度 。 在 过 去 30 年 里 ， 出 现 了 许 
多 导致 计算 产业 革命 的 新 型 计算 机 ， 但 是 它们 很 快 就 被 更 好 的 计算 机 所 取代 。 
电子 计算 机 自 20 世纪 40 年 代 后 期 诞生 以 来 ， 其 创新 性 的 竞争 带 来 了 史无前例 的 进步 。 如 
果 运 输 业 能 够 以 计算 机 工业 的 速度 发 展 ， 那 么 我 们 只 需要 花 一 美 分 就 可 以 在 一 秒 钟 之 内 从 纽约 
赶 到 伦敦 。 想 象 一 下 ， 这 样 的 进步 将 如 何 改变 社会 一 生活 在 南 太平 洋 的 塔 希 提 岛 ， 而 工作 在 
旧金山 ， 傍 晚 去 莫斯科 吃 夜宵 一 “你 能 够 想象 得 出 这 种 进步 意味 着 什么 。 
沿 着 农业 革命 、 工 业 革命 的 发 展 方向 ， 计 算 机 促进 了 人 类 的 第 三 次 革命 一 “信息 革命 。 信 
息 革命 使 人 类 的 能 力 成 倍增 长 ， 自 然而 深刻 地 影响 着 人 类 的 日 常生 活 ， 甚 至 改变 了 寻求 新 知识 
的 方法 。 现 在 有 一 种 科学 探索 的 新 方式 ， 即 计算 科学 家 联合 理论 和 实验 科学 家 ， 共 同 探索 天 文 
学 、 生 物 学 、 化 学 和 物理 学 的 前 沿 问题 。 
计算 机 革命 一 直 在 向 前 推进 。 每 当 计算 成 本 降低 10 倍 ， 计 算 机 的 发 展 机 遇 就 会 增加 10 
倍 。 原 本 出 于 经 济 考虑 不 可 行 的 应 用 突然 变 得 可 行 了 。 例 如 ， 下 述 各 项 应 用 在 过 去 曾经 是 “ 计 
算 机 科学 幻想 ”: 
。 车 载 计算 机 : 在 20 世纪 80 年 代 初 微 处 理 器 的 性 能 和 价格 得 到 极 大 改进 之 前 ， 用 计算 
机 来 控制 汽车 几乎 是 天 方 夜 谭 。 而 今天 ， 用 计算 机 控制 的 汽车 发 动机 普遍 应 用 ， 车 载 
计算 机 不 仅 改进 了 燃油 效率 、 减 轻 了 污染 ， 还 通过 盲点 警告 、 车 道 偏离 警告 、 移 动 目 
标 检测 和 安全 气囊 实现 了 碰撞 时 对 乘客 的 保护 。 
。 手机 : 谁 曾 想到 计算 机 系统 的 发 展会 使 全 球 一 半 以 上 的 人 口 拥有 手机 ， 并 让 人 们 几乎 
在 全 球 的 各 个 角落 都 可 以 自由 通信 ? 

。 人 类 基因 项 目 : 以 前 用 于 匹配 和 分 析 人 类 基因 序列 的 计算 机 设备 价格 达 几 亿美 元 。 在 
过 去 的 15 ~25 年 里 ， 用 于 该 项 目的 计算 机 设备 的 价格 降低 了 10 ~ 100 倍 。 随 着 计算 机 
设备 价格 的 持续 下 降 ， 人 们 可 以 获得 自己 的 基因 序列 ， 并 利用 其 来 治疗 疾病 。 

。 万 维 网 : 在 编写 本 书 第 1 版 时 ， 万 维 网 尚 不 存在 ， 而 现在 万 维 网 已 经 改变 了 整个 社会 。 

在 许多 地 方 ， 它 已 取代 了 传统 的 图 书馆 和 报纸 。 
。 搜索 引擎 ; 随 着 万 维 网 规模 的 扩大 和 价值 的 与 日 俱 增 ， 如 何 快速 精确 地 找到 所 需 信息 
变 得 越 来 越 重要 。 今 天 ， 如 果 没 有 搜索 引擎 ,许多 人 在 万 维 网 中 将 寸步 难 行 。 

显而易见 ， 计 算 机 技术 的 进步 几乎 影响 着 社会 的 每 一 个 方面 。 硬 件 的 进步 使 得 程序 员 可 以 
编写 出 各 种 优秀 的 应 用 软件 ， 进 而 证 实 计算 机 几乎 是 无 所 不 能 的 。 今 天 的 科学 幻想 在 未 来 就 会 
成 为 现实 ， 诸 如 虚拟 现实 、 无 现金 社会 和 无 人 驾驶 汽车 等 。 











1.1.1 计算 应 用 的 分 类 及 其 特性 


从 智能 家 电 到 手机 再 到 最 大 型 超级 计算 机 ， 它 们 虽然 使 用 了 一 套 通用 的 硬件 技术 〈 参 见 
1.4 和 1.5 节 )， 但 这 些 不 同 的 应 用 有 着 不 同 的 设计 需求 ， 并 以 不 同 的 方式 通过 硬件 实现 。 概 
括 地 说 ， 计 算 机 主要 包括 以 下 三 类 应 用 : 

个 人 计算 机 (Personal Computer，PC) 也 许 是 最 为 人 所 知 的 应 用 方式 ， 本 书 的 读者 几乎 都 
在 大 量 使 用 。 个 人 计算 机 强调 对 单 用 户 提 供 良 好 的 性 能 ， 价 格 低廉 ， 通 常 运行 第 三 方 软件 。 尽 
管 此 类 应 用 的 出 现 只 有 短 短 的 35 年 ， 但 它 推动 了 许多 计算 技术 的 革新 。 


2 个 人 计算 机 ; 用 于 个 人 使 用 的 计算 机 ， 通 常 包 含 图 形 显示 器 、 键 盘 和 鼠标 等 。 


服务 器 (server) 是 过 去 被 称 为 大 型 机 的 现代 形式 ,通常 借助 网 络 访问 。 服 务 器 适用 于 执 
行 大 负载 任务 ， 可 以 执行 单个 复杂 应 用 (科学 的 或 工程 的 )， 也 可 以 处 理 大 量 的 简单 作业 ， 如 
大 型 Web 服务 器 。 这 些 应 用 通常 基于 其 他 来 源 的 软件 〈 例 如 数据 库 或 仿真 软件 ) ， 并 且 往 往 为 
了 特别 的 需要 而 加 以 修改 或 定制 。 服 务 器 的 制造 技术 和 桌面 计算 机 差不多 ， 但 能 够 提供 更 强 的 
计算 、 存 储 和 LO 能 力 。 通 常情 况 下 ， 当 发 生 故 障 时 ， 服 务 器 比 个 人 计算 机 恢复 的 代价 高 得 
多 ， 因 此 服务 器 更 加 强调 可 靠 性 。 


多 ”服务 器 : 用 于 为 多 用 户 运行 大 型 程序 的 计算 机 ， 通 常 由 多 个 用 户 并 行使 用 ， 并 且 一 般 通 过 
网 络 访 问 。 


服务 器 的 功能 和 价格 有 很 大 的 伸缩 范围 。 低 端 服务 器 可 能 比 桌 面 计算 机 稍微 贵 些 ， 不 带 显示 
器 和 键盘 的 大 约 需 要 1 000 美元 ， 一 般 用 于 文档 存储 、 小 型 商务 应 用 或 者 简单 的 Web 服务 〈 见 
6. 10 节 ) 。 高 端 服务 器 称 为 超级 计算 机 (supercomputer) ,一 般 由 成 百 上 千 台 处 理 吕 组成， 内存 为 
terabyte 级 ， 其 价格 可 高 达 数 千 万 甚至 上 亿美 元 。 它 们 主要 用 于 高 端 科学 和 工程 计算 ， 如 天 气 预 
报 、 石 油 勘探 、 蛋 白质 结构 计算 和 其 他 大 规模 问题 。 虽 然 这 类 超级 计算 机 代表 了 最 高 的 计算 能 
力 ， 但 是 它们 只 占 服务 器 相对 很 小 的 一 部 分 ， 在 整个 计算 机 市 场 份额 中 所 占 比 例 也 很 小 。 


史 ”超级 计算 机 : 具有 最 高 性 能 和 最 高 成 本 的 一 类 计算 机 ， 一 般配 置 为 服务 器 ， 需 要 花费 数 千 
万 甚至 数 亿美 元 。 

人 terabyte: 一 般 简 写作 TB， 原 始 定义 为 1099 511 627776 (2”) 字 节 ， 但 有 些 通信 和 辅助 存 
储 系统 将 其 重新 定义 为 1 000 000 000 000 (10”) 字 节 。 为 了 避免 混淆 ， 使 用 术语 tebibyte 
(TiB) 表示 2” 字 节 ， 而 terabyte 指 107 字 节 。 图 1-1 表 示 了 十 进 制 和 二 进 制 术语 的 范围 






























[aobyte kibibyte 
megabyte mebibyte | MiB 
gigabyte gibibyte GE 













terabyte 
petabyte 


10° tebibyte 
PB | 10' pebibyte | PiB 
exabyte EB 1018 exbibyte 
ZB 1021 zebibyte 
YB | 10 | yobibyte 
图 1-1 通过 为 常用 容量 加 一 个 二 进 制 注释 解决 2 与 10' 字 节 的 模糊 性 。 最 后 一 列表 示 了 二 进 制 术语 大 于 
相应 的 十 进 制 术语 的 具体 数值 。 在 以 bit 为 单位 时 ， 这 些 表示 方法 同样 适用 ， 因 此 gigabit (Gb) 

是 10?bit， 而 gigibit (Gib) 是 2 bit 
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嵌入 式 计算 机 (embedded computer) 是 数量 最 多 的 一 类 计算 机 ， 应 用 和 性 能 范围 十 分 广 
泛 , 包括 汽车 、 电 视 中 的 微 处 理 器 以 及 用 来 控制 飞机 和 货船 的 处 理 器 网 络 。 嵌 和 人 式 计算 系统 的 
设计 目标 是 运行 单一 应 用 程序 或 者 一 组 相关 的 应 用 程序 ， 并 且 通 常 和 硬件 集成 在 一 起 以 单一 系 
统 的 方式 一 并 交付 用 户 。 因 此 ， 尽 管 嵌 人 式 计算 机 的 数量 庞大 ， 还 是 有 很 多 用 户 从 来 没有 意识 
到 他 们 正在 使 用 计算 机 。 


全 谈 入 式 计 算 机 : 谈 入 到 其 他 设备 中 的 计算 机 ， 一 般 运 行 预定 义 的 一 个 或 者 一 组 应 用 程序 。 


面向 单一 应 用 需求 的 做 入 式 应 用 通常 对 成 本 或 功 耗 有 严格 限制 。 以 音乐 播放 器 为 例 ， 处 理 
器 只 需 尽 量 快速 地 执行 有 限 的 功能 ， 除 此 之 外 ， 降 低 成 本 和 功 耗 是 最 大 的 目标 。 除 了 低 成 本 的 
要 求 之 外 ， 由 于 故障 可 能 会 让 使 用 者 感到 不 适 〈 例 如 ， 新 电视 机 无 法 正常 收看 节目 ) ， 也 可 能 
会 导致 安全 事故 (例如 ， 飞 机 或 货船 失事 ) ， 因 此 组 入 式 计算 机 对 故障 非常 敏感 。 在 面向 消费 
者 的 嵌入 式 应 用 中 (如 数字 家 电 ) 一 般 通 过 简单 设计 来 获得 可 靠 性 一 一 其 重点 在 于 尽 可 能 地 
保证 一 项 功能 的 正常 运转 。、 而 在 大 型 嵌入 式 系 统 中 ,采用 了 在 服务 器 领域 应 用 的 多 种 元 余 技 
术 。 尽 管 本 书 将 重点 放 在 通用 计算 机 上 ,但 是 大 多 数 概 念 可 直接 或 者 稍微 修改 之 后 用 于 嵌入 式 
计算 机 。 


车) 精 解 本 书 中 的 精 解 是 正文 中 的 一 些 段落 ， 主 要 用 来 对 读者 可 能 感 兴趣 的 内 容 做 深入 介 
绍 。 由 于 它 并 不 影响 后 续 内 容 的 学 习 ， 因 此 对 此 部 分 不 感 兴趣 的 读者 可 以 直接 跳 过 。 
许多 网 入 式 处 理 器 使 用 处 理 器 核 。 处 理 器 核 是 利用 硬件 描述 语言 (如 Verilog 或 
VHDL， 见 第 4 章 ) 描述 的 处 理 器 版 本 ， 它 使 得 设计 者 能 够 把 其 他 专用 硬件 与 之 集成 起 来 
制造 在 一 块 芯 片上 。 


1. 1.2 欢迎 来 到 后 PC 时 代 


技术 的 持续 进步 给 计算 机 硬件 带 来 了 革命 性 的 变化 ， 对 整个 信息 技术 工业 产生 了 震动 。 就 
像 30 年 前 开始 出 现 的 个 人 计算 机 对 产业 带 来 的 变化 一 样 ， 我 们 已 经 从 本 书 的 上 一 版 开始 感受 
到 这 种 变化 。 代 替 PC 的 是 个 人 移动 设备 ( Personal Mobile Device，PMD ) 。PMD 由 电池 供电 ， 
通过 无 线 方式 连接 到 网 络 ， 价 格 通常 只 有 几 百 美元 。 另 外 ， 与 PC 一 样 ，PMD 可 下 载 软件 
(App) 并 进行 运行 。 与 PC 不 同 的 是 ，PMD 不 再 有 键盘 和 鼠标 ， 而 采用 触摸 屏 甚至 语音 作为 输 
和 人 人。 当今 的 PMD 可 以 是 智能 手机 或 平板 电脑 ， 而 明天 的 PMD 可 能 会 包括 电子 眼镜 。 图 1-2 给 
出 了 平板 电脑 和 智能 手机 与 PC 和 传统 手机 的 增长 速度 的 对 比 。 


”个 人 移动 设备 : 连接 到 网 络 上 的 小 型 无 线 设备 。PMD 由 电池 供电 ， 通 过 下 载 App 的 方式 
安装 软件 。 智 能 手机 和 平板 电脑 是 典型 的 PMD。 


云 计算 (cloud computing) 替代 了 传统 的 服务 器 ， 它 依赖 于 称 为 仓储 规模 计算 机 ( Ware- 
house Scale Computer，WSC) 的 巨型 数据 中 心 。 像 Amazon 和 Google 这 样 的 公司 构建 了 包含 
100 000 台 服务 器 的 WSC， 一 些 公 司 可 以 租用 其 中 一 部 分 为 PMD 提供 软件 服务 ， 而 不 用 自己 构 
建 WSC。 事实 上 , 与 PMD 和 WSC 是 硬件 工业 的 革命 类 似 ， 通 过 云 计算 实现 的 软件 即 服务 
(Software as a Service，SaaS) 是 软件 工业 的 革命 。 当 今 的 软件 开发 者 通常 在 PMD 和 云 上 各 运行 
其 应 用 的 一 部 分 。 


2 云 计 算 : 在 网 络 上 提供 服务 的 大 服务 器 集群 ， 一 些 运营 商 根据 应 用 需求 出 租 不 同 数量 的 服 
务 器 。 
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2 软件 即 服务 : 在 网 络 上 以 服务 的 方式 提供 软件 和 数据 。 其 运行 方式 通常 不 是 在 本 地 设备 上 
运行 所 有 的 二 进 制 代码 ， 而 是 通过 诸如 运行 在 本 地 客户 端的 浏览 器 等 小 程序 登录 到 远程 服 
务 器 上 执行 。 典 型 的 例子 是 Web 搜索 和 社交 网 络 。 





手机 不 包括 智能 手机 ) 


平板 电脑 
ett 
2007 2008 2009 2010 2011 2012 


图 1-2 每 年 生产 的 平板 电脑 和 智能 手机 与 PC 和 传统 手机 的 数量 对 比 。 平 板 电脑 和 智能 手机 代表 着 后 PC 时 
代 。 智 能 手机 反映 了 手机 工业 的 近期 增长 情况 ， 并 且 在 2011 年 超过 了 PC 的 产量 。 平 板 电脑 产量 增长 
最 快 ，2012 年 的 产量 几乎 是 2011 年 的 两 倍 。PC 和 传统 手机 的 产量 保持 不 变 甚至 在 下 降 


1.1.3 你 能 从 本 书 学 到 什么 


成 功 的 程序 员 总 是 关心 其 程序 的 性 能 ， 因 为 让 用 户 快 速 得 到 结果 对 软件 成 功 与 否 至 关 重 
要 。 在 20 世纪 六 七 十 年 代 ， 限 制 计算 机 性 能 的 主要 因素 是 内 存 容量 。 因 而 那 时 候 程序 员 的 信 
条 是 尽量 少 占用 内 存 空间 ， 以 加 速 程序 的 运行 速度 。 近 十 多 年 来 ,计算 机 和 内 存 的 设计 技术 有 
了 长 足 进 步 。 除 了 其 人 式 系 统 以 外 ， 大 多 数 用 户 对 少 占 内 存 容 量 的 需求 大 大 减轻 了 。 

现在 ， 关 心性 能 的 程序 员 需 要 十 分 明确 ，20 世纪 60 年 代 的 简单 存储 模型 已 经 不 复 存 在 ， 
现代 计算 机 的 特征 是 处 理 器 的 并 行 性 和 内 存 的 层次 性 。 另 外 ， 当 今 的 程序 员 需 要 考虑 运行 在 
PMD 或 云 上 的 程序 的 能 效 ， 这 就 要 求 他 们 了 解 自 己 的 代码 之 下 的 很 多 细节 ( 见 1.7 节 )。 因 
此 ， 程序 员 为 了 创建 有 竞争 力 的 软件 版 本 ， 必 须 增加 对 计算 机 组 成 的 认 知 。 

我 们 很 荣幸 有 机 会 为 你 解释 这 些 知识 阐述 机 箱 有 覆盖 之 下 的 计算 机 内 部 软 硬 件 是 如 何 工作 
的 。 当 你 读 完 本 书 之 后 ， 我 们 相信， 你 将 能 够 理解 下 面 的 问题 : 

。 用 C 或 Java 等 高 级 语言 编写 的 程序 如 何 翻译 成 硬件 之 间 的 语言 ? 硬件 如 何 执 行程 序 ? 
领会 这 些 概念 是 理解 软 硬 件 两 者 如 何 影 响 程 序 性 能 的 基础 。 

。 什么 是 软 硬 件 之 间 的 接口 ， 以 及 软件 如 何 指导 硬件 完成 其 功能 ? 这 些 概念 对 于 许多 软 
件 的 编写 是 十 分 重要 的 。 

。 哪些 因素 决定 了 程序 的 性 能 ?程序 员 如 何 才 能 改进 其 程序 性 能 ?从 本 书 中 我 们 将 知道 ， 
程序 性 能 取决 于 原始 程序 、 将 该 程序 转换 为 计算 机 语言 的 软件 以 及 执行 该 程序 的 硬件 
的 有 效 性 。 

。 什么 技术 可 供 硬件 设计 者 用 于 改进 性 能 ?本 书 将 介绍 现代 计算 机 设计 的 基本 概念 。 有 
兴趣 的 读者 可 深入 阅读 我 们 的 另 一 本 进 阶 教材 《Computer Architecture: A Quantitative 
Approach》。 

。 硬件 设计 者 可 使 用 哪些 技术 提高 能 效 ? 什么 技术 可 供 程序 员 提 高 或 降低 能 效 ? 

。 为 什么 串 行 处 理 近来 发 展 为 并 行 处 理 ? 这 种 发 展 带 来 的 结果 是 什么 ? 本 书 给 出 了 解释 ， 
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并 介绍 了 当今 支持 并 行 处 理 的 硬件 机 制 ， 全 面 评述 了 新 一 代 的 多 核 微 处 理 器 (mul- 
ticore microprocessor) ( 见 第 6 章 )。 

。 自 1951 年 的 第 一 台 商 用 计算 机 开始 ， 计 算 机 架构 师 们 提出 的 哪些 伟大 的 思想 构成 了 现 
代 计 算 机 的 基础 ? 


人 多核 微 处 理 器 : 在 一 块 集成 电路 上 包含 多 个 处 理 器 (“ 核 ”) 的 微 处 理 器 。 


如 果 无 法 理解 这 些 问题 ， 那 么 要 在 现代 计算 机 上 提升 程序 性 能 ， 或 者 要 评估 不 同 计算 机 解 
决 特定 问题 的 优 劣 将 会 是 一 个 反复 实验 的 复杂 过 程 ， 而 不 是 一 个 深入 分 析 的 科学 过 程 。 

本 书 第 1 章 的 目的 是 为 其 余 各 章 黄 定 良好 的 基础 。 它 介绍 了 各 种 基本 概念 和 定义 ， 指 出 如 
何 正 确 地 剖析 软 硬 件 ， 以 及 如 何 评价 性 能 与 功 耗 。 它 还 介绍 了 集成 电路 (为 计算 机 革命 提供 动 
力 的 技术 ) ， 并 在 最 后 解释 了 向 多 核 转 移 的 原因 。 

在 本 章 和 后 面 几 章 里 ， 读 者 会 看 到 许多 新 的 术语 或 者 一 些 你 听 过 却 不 知道 其 含义 的 术 
语 。 但 是 不 用 担心 ， 在 描述 现代 计算 机 时 ， 确 实 会 有 很 多 专用 术语 ， 它 们 使 我 们 能 够 精确 
描述 计算 机 的 功能 或 性 能 。 另 外 ， 计 算 机 设计 人 员 (包括 本 书 作 者 ) 喜欢 用 首 字母 缩 略 词 
(acronym) ,一 旦 知道 了 每 个 字母 代表 什么 ， 就 很 容易 理解 了 。 为 了 帮助 读者 理解 和 记忆 这 
些 专用 术语 ， 在 术语 第 一 次 出 现时 ， 我 们 会 给 出 明确 的 定义 。 通 过 与 这 些 术 语 的 短 时 间接 
触 ， 你 将 会 熟练 地 正确 使 用 这 些 术 语 的 缩写 ， 例 如 BIOS、CPU、DIMM、DRAM、PCIe、 
SATA 和 许多 其 他 术语 。 

含 “ 首 字母 缩 略 词 : 由 一 串 单词 中 每 个 单词 的 首 字母 相连 构成 的 单词 。 例 如 RAM 是 随机 访问 
存储 器 (Random Access Memory) 的 缩 略 词 ，CPU 是 中 央 处 理 单元 (Central Process Unit ) 

的 缩 略 词 。 


为 了 加 强 对 软件 和 硬件 对 于 程序 运行 性 能 影响 的 理解 ， 我 们 在 全 书 中 特别 插入 了 “理解 程 
序 性 能 ”， 来 对 程序 性 能 的 理解 加 以 概括 。 下 面 就 是 第 一 个 。 


邯 ] 理解 程序 性 能 “一 个 程序 的 性 能 取决 于 以 下 各 因素 的 组 合 : 程序 所 用 算法 的 有 效 性 ， 用 来 
建立 程序 并 将 其 翻译 成 机 器 指令 的 软件 系统 ， 计 算 机 执行 机 器 指令 (可 能 包括 LO 操作 ) 
的 有 效 性 。 下 表 总 结 了 硬件 和 软件 是 如 何 影响 性 能 的 。 


软件 或 硬件 组 成 元 素 该 元 素 如 何 影 响 性 能 该 论题 出 现 的 位 置 

















算法 决定 了 源码 级 语句 的 数量 和 1/O 操作 的 数量 
编程 语言 、 编 译 器 和 体系 结构 决定 了 每 条 源码 级 语句 对 应 的 计算 机 指令 数量 
处 理 器 和 存储 系统 决定 了 指令 的 执行 速度 












决定 了 LO 操作 可 能 的 执行 速度 


为 了 说 明 本 书 中 的 思想 的 作用 ， 在 一 连 串 章节 中 对 完成 一 个 矩阵 与 一 个 向 量 相 乘 的 C 程序 
进行 了 性 能 优化 。 每 一 步 都 可 以 帮助 我 们 理解 现代 微 处 理 器 硬件 如 何 能 使 性 能 提高 200 倍 ! 
。 在 第 3 章 的 数据 级 并 行 部 分 ， 使 用 C 语言 固有 的 子 字 并 行使 性 能 提高 3. 8 倍 。 
。 在 第 4 章 的 指令 级 并 行 部 分 ， 使 用 循环 展开 开发 多 指令 发 射 和 乱 序 执行 硬件 使 性 能 再 
提高 2.3 倍 。 
。 在 第 5 章 的 存储 器 层次 优化 部 分 ， 使 用 阻塞 cache 将 大 型 矩阵 处 理性 能 再 次 提高 
2.5 倍 。 





IO 系统 (硬件 和 操作 系统 ) 
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。 在 第 6 章 的 线程 级 并 行 部 分 ， 在 OpenMP 中 使 用 循环 并 行 来 开发 多 核 硬件 使 性 能 再 次 
提高 14 倍 。 


苇 ] 小 测验 

“小 测验 ”的 目的 是 帮助 读者 评估 自己 是 否 掌握 了 所 学 的 概念 ， 以 及 是 否 理解 了 这 些 概念 

的 内 涵 。 在 这 些小 测验 中 ， 有 些 只 有 简单 的 答案 ， 有 些 则 是 为 了 组 内 讨论 。 有 些 问题 的 答案 可 
在 章 未 找到 。 所 有 小 测验 只 在 节 末 出 现 ， 如 果 你 确信 自己 对 该 部 分 内 容 完 全 理解 ， 则 可 以 跳 
过 去 。 

1. 每 年 嵌入 式 处 理 器 的 售 出 数量 远 远 超过 PC 处 理 器 甚至 后 PC 处 理 器 的 数量 。 根 据 自己 
的 经 验 ， 你 是 支持 还 是 反对 这 种 看 法 ? 列举 你 家 中 使 用 的 嵌入 式 处 理 器 ， 它 与 你 家 中 
桌面 处 理 器 的 数量 相 比 如 何 ? 

. 如 前 所 述 ， 软 件 和 硬件 都 会 影响 程序 的 性 能 。 请 思考 下 述 哪个 例子 属于 性 能 瓶颈 。 
。 所 选 算法 

。 编程 语言 或 编译 程序 

。 操作 系统 

。 处 理 器 

Do] 。 LO 系统 和 设备 


1.2 计算 机 系统 结构 中 的 8 个 伟大 思想 


现在 介绍 计算 机 设计 者 在 过 去 60 年 的 计算 机 设计 中 提出 的 8 个 伟大 思想 。 这 些 思想 非常 
有 用 ， 以 至 于 在 首 台 应 用 它们 的 计算 机 之 后 的 很 长 时 间 里 ， 设 计 师 在 设计 新 的 处 理 器 时 都 会 使 
用 这 些 思想 。 这 些 思想 将 会 贯穿 本 章 和 后 续 章 节 。 为 了 说 明 它们 的 影响 ， 本 节 对 这 些 思想 的 含 
义 以 及 亮点 进行 介绍 ， 在 本 书 的 后 续 章 节 中 将 会 明确 使 用 它们 近 100 次 。 


1.2.1 面向 摩尔 定律 的 设计 


计算 机 设计 者 面临 的 一 个 永恒 的 问题 就 是 摩尔 定律 ( Moore’ Law) 驱动 的 快速 变化 。 摩 尔 
定律 指出 单 芯 片上 的 集成 度 每 18 ~24 个 月 翻 一 番 。 订 尔 定律 是 Intel 公司 的 创始 人 之 一 Gordon 
Moore 在 1965 年 对 集成 电路 集成 度 做 出 的 预测 。 由 于 计算 机 设计 需要 几 年 时 间 ， 因 此 在 项 目 结 
束 时 ， 单 芯片 的 集成 度 相对 于 设计 开始 时 很 容易 翻 一 番 甚 至 翻 两 番 。 像 一 个 双向 飞碟 运动 员 一 
样 ， 计 算 机 设计 者 必须 预测 其 设计 完成 时 的 工艺 水 平 ， 而 不 是 设计 开始 时 的 。 


1.2.2 使 用 抽象 简化 设计 


计算 机 架构 师 和 程序 员 必 须发 明 能 够 提高 产量 的 技术 ,否则 设计 时 间 也 将 会 向 资源 规模 一 
样 按照 摩尔 定律 增长 。 提 高 硬件 和 软件 生产 率 的 主要 技术 之 一 是 使 用 抽象 (abstraction) 来 表 
示 不 同 的 设计 层次 ， 在 高 层次 中 看 不 到 低层 次 的 细节 ， 只 能 看 到 一 个 简化 的 模型 。 


1.2.3 加 速 大 概率 事件 


加 速 大 概率 事件 (common case fast) 远 比 优化 小 概率 事件 更 能 提高 性 能 。 大 概率 事件 通常 
比 小 概率 事件 简单 ， 从 而 易于 提高 。 大 概率 事件 规则 意味 着 设计 者 需要 知道 什么 事件 是 经 常 发 
生 的 ， 这 只 有 通过 仔细 的 实验 与 评估 才能 得 出 〈 见 1.6 节 ) 。 可 以 把 加 速 大 概率 事 想象 成 一 辆 
LU ] 赛车 ， 由 于 通常 情况 下 只 有 一 两 名 乘客 ， 因 此 提高 赛车 的 速度 要 比 提高 小 型 货车 的 速度 容易 。 


iD 


1.2.4 通过 并 行 提高 性 能 


从 计算 的 诞生 开始 ， 计 算 机 设计 者 就 通过 并 行 执 行 操作 来 提高 性 能 。 在 本 书 中 将 会 看 到 许 
多 并 行 性 能 (parallel performance) 的 例子 。 


1.2.5 通过 流水 线 提高 性 能 


在 计算 机 系统 结构 中 ， 一 个 特别 的 并 行 性 场景 就 是 流水 线 ( pipelining)。 例 如 许多 西部 片 
中 ,一 些 坏人 在 制造 火灾 ， 在 消防 车 出 现 之 前 会 有 一 个 “消防 队列 ”来 灭火 一 一 小 镇 的 居民 
们 排 成 一 排 通过 水 桶 接力 快速 将 水 桶 从 水 源 传 至 火场 ， 而 不 是 每 个 人 都 在 来 回 奔跑 。 可 以 把 流 
水 线 想象 成 一 系列 水 管 ， 其 中 每 一 块 代表 一 个 流水 级 。 


1.2.6 通过 预测 提高 性 能 


遵循 谚语 “求人 准许 不 如 求人 原谅 "， 最 后 一 个 伟大 的 思想 就 是 预测 (prediction ) 。 在 某 
些 情况 下 ， 如 果 假 定 从 误 预测 恢复 执行 代价 不 高 并 且 预 测 的 准确 率 相对 较 高 ， 则 通过 猜测 的 方 
式 提前 开始 某 些 操作 ， 要 比 等 到 确切 知道 这 些 操作 应 该 启动 时 才 开 始 要 快 一 些 。 


1.2.7 存储 器 层次 


由 于 存储 器 的 速度 通常 影响 性 能 、 存 储 器 的 容量 限制 了 解 题 的 规模 、 当 今 计算 系统 中 存储 
器 的 代价 占 了 主要 部 分 ， 因 此 程序 员 希 望 存储 器 速度 更 快 、 容 量 更 大 、 价 格 更 便宜 。 设 计 师 们 
发 现 可 以 通过 存储 器 层次 (hierarchy of memory) 来 解决 这 些 相 互 矛盾 的 需求 。 在 存储 器 层次 
中 ， 速 度 最 快 、 容 量 最 小 并 且 每 位 价格 最 昂贵 的 存储 器 处 于 顶层 ， 而 速度 最 慢 、 容 量 最 大 且 每 
位 价格 最 便宜 的 存储 器 处 于 最 底层 。 在 第 5 章 将 会 看 到 ， 程 序 员 看 到 的 主 存 同时 具有 存储 器 层 
次 中 顶层 的 高 速度 和 底层 中 的 大 容量 和 便宜 的 特征 。 可 以 把 存储 器 层次 想象 成 一 个 堆 至 的 三 角 
形 ， 该 形状 表示 速度 、 价 格 和 容量 : 越 靠近 顶端， 存储 器 速度 越 快 、 每 位 价格 越 高 ; 底层 宽度 
越 大 ， 存 储 器 容量 越 大 。 


1.2.8 通过 元 余 提 高 可 靠 性 


计算 机 不 仅 需 要 速度 快 ， 还 需要 工作 可 靠 。 由 于 任何 一 个 物理 器 件 都 有 可 能 失效 ， 因 此 可 
以 通过 使 用 宛 余部 件 的 方式 提高 系统 的 可 靠 性 〈dependable) ， 宛 余部 件 可 以 替代 失效 部 件 并 可 
以 帮助 检测 错误 。 可 以 通过 牵引 式 挂 车 来 理解 可 靠 性 : 牵引 式 挂车 后 轴 两 边 具 有 双 轮 胎 ， 在 一 
个 轮胎 出 问题 时 卡车 仍然 可 以 继续 工作 。( 在 一 个 轮胎 出 问题 时 ， 卡 车 司机 立即 直接 开 往 修理 
厂 进行 修理 ， 从 而 恢复 元 余 性 。) 


1.3 程序 概念 入 门 


在 巴 形 ， 我 对 当地 人 讲法 语 ， 他 们 只 是 肥 夏 我 看 ; 我 从 来 没 能 社 这 些 和 白 病 理解 他 
们 自己 的 语言 。 





一 一 马克 吐 温 ,， 《上 凡 图 奇 饥 》，1869 


一 个 典型 的 应 用 程序 ， 如 字 处 理 程序 或 大 型 数据 库 系 统 ， 可 以 由 数 百 万 行 代码 构成 ， 并 依 
靠 软 件 库 来 实现 异常 复杂 的 功能 。 众 所 周知 ， 计 算 机 中 的 硬件 只 能 执行 极为 简单 的 低级 指令 。 
从 复杂 的 应 用 程序 到 简单 的 指令 需要 经 过 几 个 软件 层次 来 将 复杂 的 高 层次 操作 逐步 解释 或 翻译 




















成 简单 的 计算 机 指令 ， 这 可 以 作为 伟大 思想 抽象 的 一 个 例子 。 
图 1-3 给 出 了 这 些 软件 的 层次 结构 ， 外 层 是 应 用 

软件 ， 中 心 是 硬件 ， 系 统 软 件 (systems software) 位 于 

两 者 之 间 。 


勺 “ 系统 软件 : 提供 常用 服务 的 软件 ， 包 括 操作 系统 、 
编译 程序 、 加 载 程序 和 汇编 程序 等 。 


系统 软件 有 很 多 种 ， 其 中 有 两 种 对 于 现代 计算 机 
系统 来 说 是 必需 的 : 操作 系统 和 编译 程序 。 操 作 系 统 
(operating system) 是 用 户 程序 和 硬件 之 间 的 接口 ， 为 





作用 是 : 硬件 作为 同心 圆 的 中 心 ， 应 用 
。 处 理 基 本 的 输入 和 输出 操作 。 程序 软件 作为 最 外 层 。 在 复杂 

e 分 配 外 存 和 内 存 。 的 应 用 中 ,通常 存在 多 层 应 用 

个 应 殿 共 享 沽 软件 层 。 例 如 ， 一 个 数据 库 系 
an We We 全 全 于 束 人 各 人 而 

站 驻 留 在 该 系统 软件 上 的 某 应 用 
Windows。 又 反 过 来 运行 在 该 数据 库 之 上 


信 ”操作 系统 : 为 了 使 程序 更 好 地 在 计算 机 上 运行 而 管理 计算 机 资源 的 监控 程序 。 


编译 程序 (compiler) 完成 男 外 一 项 重要 功能 : 把 用 高 级 语言 (如 C、C + + 、Java 或 Vis- 
ual Basic 等 ) 编写 的 程序 翻译 成 硬件 能 执行 的 指令 。 这 个 翻译 过 程 是 相当 复杂 的 ， 这 里 仅 作 简 
要 介绍 ,第 2 章 和 附录 A 将 作 深 入 介绍 。 


允 编译 程序 : 将 高 级 语言 翻译 为 计算 机 所 能 识别 的 机 器 语言 的 程序 。 


从 高 级 语言 到 硬件 语言 


谈 到 电子 硬件 ， 首 先 需 要 谈 到 电信 号 的 发 送 。 对 于 计算 机 来 说 ， 最 简单 的 信号 是 “ 通 ” 
和 “ 断 ”。 因 此 ， 计算 机 只 用 2 个 字母 来 表示 。 正 如 英语 26 个 字母 写 多 少 不 受 限制 一 样 ， 计 算 
机 的 2 个 字母 写 多 少 也 不 受 限制 。 代 表 两 个 字母 的 符号 是 0 和 1， 我 们 通常 认为 计算 机 语言 就 
是 二 进 制 数 。 每 个 字母 就 是 二 进 制 元 数字 中 的 一 个 二 进 制 位 (binary digit) 或 一 位 (bit)。 计 
算 机 服从 于 我 们 的 命令 ， 即 计算 机 术语 中 的 指令 (instruction)。 指 令 是 能 被 计算 机 识别 并 执行 
的 位 串 ， 可 以 将 其 视 为 数字 。 例 如 ， 位 串 

1000110010100000 
告诉 计算 机 将 2 个 数 相 加 。 第 2 章 将 解释 为 什么 数字 元 既 表 示 指 令 又 表示 数据 。 我 们 不 希望 在 
此 处 涉及 第 2 章 的 具体 内 容 ， 但 是 使 用 数字 既 表 述 指令 又 表示 数据 是 计算 机 的 基础 。 


允 三 进 制 位 : 也 称 为 位 。 基 数 为 2 的 数字 中 的 0 或 1， 它 是 信息 的 基本 组 成 元 素 。 
念 “” 指 令 : 计算 机 硬件 所 能 理解 并 服从 的 命令 。 


第 一 代 程 序 员 是 直接 使 用 二 进 制 数 与 计算 机 通信 的 ， 这 是 一 项 非常 乏味 的 工作 。 所 以 他 们 
很 快 发 明了 助 记 符 ， 以 符合 人 类 的 思维 方式 。 最 初 助 记 符 是 手工 翻译 成 二 进 制 的 ， 其 过 程 显然 
过 于 烦琐 。 随 后 设计 人 员 开发 了 一 种 称 为 汇编 程序 (assembler) 的 软件 ， 可 以 将 助 记 符 形式 的 
指令 自动 翻译 成 对 应 的 二 进 制 。 例 如 ， 程 序 员 写 下 
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add A,B 
汇编 程序 会 将 该 符号 翻译 成 

1000110010100000 
该 指令 告诉 计算 机 将 A 和 B 两 个 数 相 加 。 这 种 符号 语言 的 名 称 今天 还 在 用 ， 即 汇编 语言 (as- 
sembly language) 。 而 机 器 可 以 理解 的 二 进 制 语 言 是 机 器 语言 (machine language) 。 


汇编 程序 : 将 指令 由 助 记 符 形 式 翻 译 成 二 进 制 形式 的 程序 。 
汇编 语言 : 以 助 记 符 形 式 表示 的 机 器 指令 。 
机 器 语言 : 以 二 进 制 元 形式 表示 的 机 器 指令 。 


虽然 这 是 一 个 巨大 的 进步 ， 但 汇编 语言 仍然 与 科学 家 用 来 模拟 液体 流动 或 会 计 师 用 来 结算 
账目 所 使 用 的 符号 相去 甚 远 。 汇 编 语 言 需 要 程序 员 写 出 计算 机 执行 的 每 条 指令 ， 要 求 程序 员 像 
计算 机 一 样 思考 。 

认识 到 可 以 编写 一 个 程序 来 将 需要 更 强大 的 高 级 语言 翻译 成 计算 机 指令 是 计算 机 早期 的 一 
个 重大 突破 。 高 级 编程 语言 (high-level programming language) 及 其 编译 程序 大 大 地 提高 了 软件 
的 生产 率 。 图 1-4 表示 了 这 些 程序 和 编程 语言 之 间 的 关系 ， 这 是 抽象 的 另外 一 个 例子 。 


0008 


高 级 语言 程序 swap(int v[], int k) 
(使 用 C 语 言 ) {int temp; 
temp = v[k]; 


v[k] = v[k+1]; 
v[k+1] = temp; 
} 


5 


了 


汇编 语言 程序 swap: 

(MIPS 指 令 集 ) multi $2，$5 ,4 
add $2, $4,$2 
Iw $15, 0($2) 
1w $16, 4($2) 
Sw $16, 0($2) 
SW $15, 4($2) 
jr $31 


二 进 制 机 器 。 00000000101000100000000100011000 
语言 程序 。 00000000100000100001000000100001 
CMIPS 指 令 集 ) 10001101111000100000000000000000 
10001110000100100000000000000100 
10101110000100100000000000000000 
10101101111000100000000000000100 
00000011111000000000000000001000 


图 1-4 C 程序 编译 为 汇编 语言 程序 ， 再 汇编 为 二 进 制 机 器 语言 程序 。 尽 管 将 高 级 语言 翻译 成 二 进 制 的 机 
器 语言 仅 需要 两 步 ， 但 一 些 编译 器 将 “中 间 人 ”和 砍 掉 ， 直 接 产生 二 进 制 的 机 器 语言 。 这 些 语言 
和 本 图 中 列举 的 程序 将 在 第 2 章 详细 检测 


[于 
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已 高 级 编程 语言 : 如 C、C+ +、Java、Visual Basic 等 可 移植 的 语言 ， 由 一 些 单词 和 代数 符 
号 组 成 ， 可 以 由 编译 器 转换 为 汇编 语言 。 


编译 程序 使 得 程序 员 可 以 写 出 高 级 语言 表达 式 : 

A+B 

编译 程序 将 其 编译 为 如 下 的 汇编 语言 语句 : 

add A,B 

然后 ， 汇 编程 序 将 此 语句 翻译 为 二 进 制 元 指令 ， 告 诉 计算 机 将 这 两 个 数 A 和 B 相 加 。 

使 用 高 级 编程 语言 有 以 下 几 个 好 处 。 第 一 ， 可 以 使 程序 员 用 更 自然 的 语言 来 思考 ， 用 英文 
和 代数 符号 来 表示 ， 形 成 的 程序 看 起 来 更 像 文字 而 不 是 密码 表 ( 见 图 1-4)。 而 且 ， 它们 可 按 
用 途 进行 设计 。 例 如 ，Fortran 是 为 科学 计算 设计 的 ，Cobol 是 为 商业 数据 操作 设计 的 ，Lisp 是 
为 符号 操作 设计 的 ， 等 等 。 还 有 一 些 特 定 领域 的 语言 ， 只 为 少数 专业 人 群 设计 ， 如 流体 仿真 的 
研究 人 员 等 。 

第 二 ， 高 级 语言 提高 了 程序 员 的 生产 率 。 如 果 使 用 较 少 行 数 的 编程 语言 即 可 表示 出 设计 用 
意 ， 则 可 加 速 程序 的 开发 ， 这 是 软件 开发 方面 少 有 的 共识 之 一 。 简 明 性 是 高 级 语言 相对 汇编 语 
言 最 为 明显 的 优势 。 

第 三 ， 采 用 高 级 语言 编写 程序 提高 了 程序 相对 于 计算 机 的 独立 性 ， 因 为 编译 程序 和 汇编 程 
序 能 够 把 高 级 语言 程序 翻译 成 任何 计算 机 的 二 进 制 元 指令 。 高 级 编程 语言 的 这 些 好 处 ， 使 其 直 
到 今天 仍 应 用 广泛 。 


1.4 硬件 概念 入 门 


我 们 已 经 在 上 节 通 过 程序 揭示 了 计算 机 软件 ， 在 本 节 中 我 们 将 打开 机 箱 盖 学 习 其 中 的 硬 
件 。 任 何 一 台 计 算 机 的 基础 硬件 都 要 完成 相同 的 基本 功能 : 输入 数据 、 输 出 数据 、 处 理 数据 和 
存储 数据 。 本 书 的 主题 就 是 描述 这 些 功 能 是 怎样 完成 的 ， 随 后 各 章 将 分 别 讨论 这 4 项 任务 。 

本 书 在 遇 到 重要 知识 点 时 ， 都 会 用 “重点 ”标题 加 以 强调 ， 和 希望 读者 对 其 重点 记忆 。 全 
书 大 致 有 10 多 个 重要 知识 点 ， 这 里 是 第 一 个 ， 即 计算 机 是 由 完成 输入 、 输 出 、 处 理 和 存储 数 
据 任务 的 5 个 部 件 构成 的 。 

计算 机 的 两 个 关键 部 件 是 输入 设备 (input device) 和 输出 设备 (output device) ， 例 如 麦克 
风 是 输入 设备 ， 而 扬声器 是 输出 设备 。 输 入 为 计算 机 提供 数据 ， 输 出 将 计算 结果 送 给 用 户 。 像 
无 线 网 络 等 设备 既是 输入 设备 又 是 输出 设备 。 


”输入 设备 : 为 计算 机 提供 信息 的 装置 ， 如 键盘 。 
人 “输出 设备 : 将 计算 结果 输出 给 用 户 (如 显示 器 ) 或 其 他 计算 机 装置 。 


第 5 章 和 第 6 章 将 详细 介绍 VO 设备 ， 这 里 由 外 部 VO 设备 开始 先 对 计算 机 硬件 做 一 些 基 
本 的 介绍 。 


图 | 重点 组 成 计算 机 的 5 个 经 典 部 件 是 输入 、 输 出 、 存 储 器 、 数 据 通 路 (在 计算 机 中 也 称 运 
算 器 ) 和 控制 器 ， 其 中 最 后 两 个 部 件 通 常 合 称 为 处 理 器 。 图 1-5 表示 了 一 台 计 算 机 的 标准 
组 成 。 该 组 成 与 硬件 技术 无 关 ， 你 总 能 够 把 任何 计算 机 (无 论 是 现在 的 还 是 过 去 的 ) 中 
的 任何 部 件 归于 这 5 种 之 一 。 为 了 加 深 读 者 对 这 一 重点 的 印象 ， 我 们 将 在 每 章 开始 都 给 出 
此 图 。 
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图 1-5 组 成 计算 机 的 5 个 经 典 部 件 。 处 理 器 从 存储 器 中 得 到 指令 和 数据 ， 输 入 部 件 将 数据 写 人 存储 器 ， 


输出 部 件 从 内 存 中 读 出 数据 ， 控 制 器 向 数据 通路 、 存 储 器 、 输 入 和 输出 部 件 发 出 命令 信号 


1.4.1 显示 器 


最 吸引 人 的 VO 设备 应 该 是 图 形 显示 器 了 。 大 多 数 个 人 移动 设备 都 用 液晶 显示 Liquid 
Crystal Display，LCD) 来 获得 轻巧 、 低 功 耗 的 显示 效果 。LCD 并 非 光源 ， 而 是 控制 光 的 传输 。 
典型 的 LCD 内 含 棒状 液态 分 子 团 形 成 的 转动 螺旋 线 ， 用 来 弯曲 来 自 显示 器 后 方 的 光线 或 者 少 
量 的 反射 光线 。 当 电流 通过 时 ， 液 态 分 子 棒 不 再 弯曲 ， 也 不 再 使 光线 弯曲 ， 由 于 两 层 相互 垂直 
的 偏光 板 之 间 充 满 液晶 材料 ， 如 果 它 不 弯曲 则 光线 不 能 通过 。 (在 不 施加 任何 电压 的 情况 下 ， 
液晶 处 于 初始 状态 ， 并 将 人 射 光 的 方向 扭转 90"， 让 背光 源 的 人 射 光 能 够 通过 整个 结构 ， 在 显 
示 屏 上 呈现 白色 ; 而 当 施加 电压 时 ， 光 线 不 再 弯曲 ， 显 示 屏 呈现 为 黑色 。) 今天 ， 大 多 数 LCD 
显示 器 采用 动态 矩阵 显示 (active matrix display) 技术 ， 其 每 个 像素 (pixel) 都 由 一 个 晶体 管 
精确 地 控制 电流 ， 使 图 像 更 清晰 。 在 彩色 动态 矩阵 LCD 中 ， 还 有 一 个 红 - 绿 - 蓝屏 决定 三 种 
颜色 分 量 的 强度 ， 每 个 点 需要 3 个 晶体 管 开关 。 


2 液晶 显示 : 这 是 一 种 显示 技术 ， 用 液体 聚合 物 薄 层 的 带电 或 者 不 带电 来 传输 或 者 阻止 光线 
的 传输 。 

2 动态 矩阵 显示 : 一 种 液晶 显示 技术 ， 使 用 晶体 管控 制 单个 像素 上 光线 的 传输 。 

2 像素 ; 图 像 元 素 的 最 小 单元 。 屏 幕 由 成 千 上 万 的 像素 组 成 的 矩阵 而 形成 。 


通过 计算 机 显示 器 ， 我 尾 飞 机 降 医 在 航空 母 舰 的 甲 坊 上， 观察 到 一 个 原 节 打 到 梦 
阱 中 ， 乘 看 火箭 叹 接近 迪 的 速度 飞 期 ， 同 时 我 了 解 到 计算 机 最 深层 的 工作 原理 。 
Ivan Sutherland， 计 算 机 图 形 学 之 艾 ,，《 Scientific American》，1984 
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72 第 1 章 





图 像 由 像素 矩阵 组 成 ， 可 以 表示 成 二 进 制 位 的 矩阵 ， 称 为 位 图 (bit map)。 针 对 不 同 的 屏 
幕 尺 寸 及 分 辨 率 ， 典 型 的 屏幕 中 显示 矩阵 的 大 小 可 以 从 1024 x768 到 2 048 x1 536。 彩 色 显 示 
器 使 用 8 位 来 表示 每 个 三 原色 ( 红 、 绿 和 蓝 ) ， 每 个 像素 用 24 位 表示 ， 可 以 显示 百 万 种 不 同 的 
颜色 。 

计算 机 硬件 采用 光栅 刷新 缓冲 区 〈 又 称 为 帧 缓冲 区 ) 来 保存 位 图 以 支持 图 像 。 要 显示 的 
图 像 保 存在 帧 缓冲 区 中 ， 每 个 像素 的 二 进 制 值 以 刷新 频率 读 出 到 显示 设备 。 图 1-6 显示 了 一 个 
用 4 位 表示 一 个 像素 的 简化 设计 的 帧 缓冲 区 。 


帧 缓冲 区 


光栅 扫描 CRT 显 示 器 





产 “着 


图 1-6 左边 的 帧 缓冲 区 中 每 个 坐标 决定 了 右边 光栅 扫描 CRT 显示 中 相应 坐标 的 灰 度 。 像 素 (X。，Y) 
的 灰 度 值 是 0011， 小 于 像素 (X!，Y,) 的 灰 度 值 ，(X, ，Y, ) 的 灰 度 值 是 1101 


使 用 位 图 的 目的 是 如 实地 在 屏幕 上 进行 显示 。 因 为 人 眼 可 以 分 辨 出 屏幕 上 的 细小 变化 ， 所 
以 图 像 系 统 面临 着 挑战 。 


1.4.2 触摸 屏 


PC 使 用 LCD， 而 后 PC 时 代 的 平板 电脑 和 智能 手机 使 用 接触 敏感 的 显示 设备 替代 了 键盘 和 
鼠标 ， 拥 有 良好 的 用 户 界面 ， 用 户 直接 指向 感 兴趣 的 内 容 ， 而 不 需要 使 用 鼠标 。 

触摸 屏 可 采用 多 种 方式 实现 ， 许 多 平板 电脑 采用 电容 感应 实现 。 如 果 绝缘 玻璃 上 覆盖 一 层 
透明 的 导体 ， 人 的 手指 接触 到 屏幕 范围 时 ， 由 于 人 是 导体 ， 将 会 使 屏幕 的 电场 发 生变 化 ， 进 而 
导致 电容 的 变化 。 这 种 技术 允许 同时 接触 多 个 点 ， 可 提供 非常 好 的 用 户 界面 。 


1.4.3 打开 机 箱 


图 1-7 给 出 了 Apple iPad 2 平板 电脑 的 内 部 结构 。 不 难看 出 ， 在 计算 机 的 五 大 传统 部 件 中 
的 WO 是 该 设备 的 主要 部 分 。iPad 2 的 IO 设备 包括 一 个 电容 性 的 多 触 点 LCD、 前 置 摄像 头 、 
后 置 摄像 头 、 麦 克 风 、 耳 机 插 孔 、 扬 声 器 、 加 速 计 、 陀 螺 仪 、Wi- Fi 网 络 和 蓝牙 网 络 。 其 数据 
通路 、 控 制 器 和 存储 器 只 占 很 小 一 部 分 。 

图 1-8 中 的 小 长 方形 是 集成 电路 (integrated circuit) ， 俗 称 芯片 (chip)。 其 中 心 标 有 As5 的 
芯片 中 含有 两 个 运行 频率 为 1CHz 的 ARM 处 理 器 。 处 理 器 是 计算 机 中 最 活跃 的 部 分 。 它 严格 按 
照 程序 中 的 指令 运行 ， 将 数字 相 加 ， 测 试 结果 ， 并 按 结果 发 出 控制 信号 使 VYO 设备 做 出 动作 ， 
等 等 。 有 时 候 ， 人 们 把 处 理 器 称 为 中 央 处 理 单元 (central processor unit) ， 即 CPU 。 


忆 “集成 电路 : 也 叫 茧 片 ， 一 种 将 几 十 个 至 几 百 万 个 晶体 管 连 接 起 来 的 设备 。 
多 ”中央 处 理 器 单元 也 称 为 处 理 器 ， 处 理 器 是 计算 机 中 最 活跃 的 部 分 ， 它 包括 数据 通路 和 控 
制 器 ， 能 将 数字 相 加 ， 测 试 结果 ， 并 按 结果 发 出 控制 信号 使 IO 设备 动作 等 。 
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Apple iPad2 A1395 的 组 成 。 中 间 是 iPad 的 金属 背 板 (中心 是 倒置 的 Apple 标志 ) ， 顶 部 是 电容 性 
兰 措 屏 和 LCD。 最 右 端 是 3. 8V、25W* h 的 聚合 物 电 池 ， 它 包含 三 块 锂 离子 电池 芯 ， 可 以 供电 10 
小 时 。 最 左 端 是 将 LCD 固定 在 背 板 上 的 金属 外 壳 。 在 金属 背 板 周 围 的 小 部 件 组 成 了 我 们 获知 的 计 
算 机 ,它们 在 金属 这 内 位 于 电池 旁边 , 呈 型 排 布 。 图 1-8 显示 了 靠近 金属 外 壳 左 下 部 L 型 的 逐 
挨 主 板 的 详细 情况 ， 上 面 有 处 理 器 和 存储 器 ， 其 下 面 的 小 方块 中 包含 了 提供 无 线 通信 的 芯片 ， 即 
Wi-Fi、 蓝 牙 和 调频 调谐 器 ， 人 亡 可 以 插 在 逮 辑 主板 左下 角 的 插 模 中 -外壳 左上 角 是 另外 一 个 工 型 
部 件 , 它 是 前 置 摄像 组 件 ， 包括 摄像 头 、 耳 机 插 孔 和 麦克 风 。 外 壳 右 上 角 的 电路 板 除 了 加 束 计 和 
陀 旦 仪 ， 还 包含 了 音量 控制 和 医 音 /屏幕 旋转 锁定 按钮 。 加 速 计 和 陀 蝶 仪 使 得 Pad 可 识别 6 向 移 
动 。 旁边 的 小 方 据 是 后 置 摄像 头 。 外 这 右 下 角 是 L 型 的 扬声器 组 件 。 底 部 的 电缆 连接 公 辑 主板 和 
摄像 /声音 控制 电路 板 。 电 绕 和 扬声器 组 件 之 间 的 电路 板 是 电容 性 钨 摸 屏 的 控制 器 (iFixit 友情 提 


供 ，www. ifixit. com) 





图 1-7 中 Apple iPad 2 的 逻辑 主板 。 图 中 突出 了 $ 块 集成 电路 。 中 部 的 大 IC 是 Apple A5 芯片 ， 
包含 了 一 个 主 频 1GHz 的 双核 ARM 处 理 器 和 512MB 的 主 存 。 图 1-19 是 A5 中 处 理 器 芯片 的 照 
片 -。 左边 大 小 相当 的 芯片 是 32CB 的 非 易 失 性 的 闪存 芯片 。 两 块 芯片 之 间 的 空间 可 以 安装 第 二 块 
存储 器 来 扩展 iPad 的 存储 容量 。A5 右边 的 芯片 包含 了 电源 控制 和 LO 控制 芯片 (iFinit 友情 提 


供 ，www. ifixit. com ) 


为 进一步 理解 硬件 ， 图 1-9 展示 了 一 款 微 处 理 器 的 内 部 细节 。 处 理 器 从 逐 辑 上 包括 两 个 主 
要 部 件 : 数据 通路 和 控制 器 ， 分 别 相当 于 处 理 器 的 肌肉 和 大 脑 。 数据 通路 ( datapath) 负责 完 
成 算术 运算 ， 控 制 器 (control) 负责 指导 数据 通路 、 存 储 器 和 LO 设备 按照 程序 的 指令 正确 执 
行 - 第 4 章 将 进一步 详细 说 明 数据 通路 和 控制 器 。 


3 | 


数据 通路 : 是 处 理 器 中 执行 算术 操作 的 部 分 。 
控制 器 : 处 理 器 中 根据 程序 的 指令 指挥 数据 通路 、 存 储 器 和 L/0 设备 的 部 分 。 
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处 理 器 数据 通路 处 理 器 数据 通路 
2 2 


处 理 器 数据 通路 处 理 器 数据 通路 
1 1 


数字 逻辑 模块 


ARM 核 ARM 核 


BAC 





~ DDR SDRM 
和 接口 ， 

图 1-9 A5 内 部 的 处 理 器 集成 电路 。 芯 片 尺寸 为 12. Imm x10. lmm， 采 用 45nm 工艺 制造 ( 见 1.5 节 ) 。 左 半 部 

分 靠 中 间 的 位 置 是 两 个 相同 的 ARM 处 理 器 , 左上 和 角 的 四 分 之 一 部 分 是 具有 4 条 数据 通路 的 图 形 处 理 

器 单元 〈 Graphic Processor Unit，GPU ) ,左下 角 和 底部 是 与 主 存 的 接口 (Chipworks 友情 提供 ， 


www. chipworks. com) 
图 1-8 中 的 A5 芯片 中 还 有 两 块 存储 器 芯片 ， 每 块 容量 2 gigabit， 共 512MiB。 内 存 (memo- 
y) 是 程序 运行 时 的 存储 空间 ， 它 同时 也 用 于 保存 程序 运行 时 所 使 用 的 数据 。 内 存 由 DRAM 芯 
片 组 成 。DRAM 是 dynamic random access memory (动态 随机 访问 存储 器 ) 的 缩写 。 内 存 由 多 片 
DRAM 芯片 组 成 ， 用 来 承载 程序 的 指令 和 数据 。 与 串 行 访 问 内 存 (如 磁带 ) 不 同 的 是 ， 无论 数 
据 存 储 在 什么 位 置 ，DRAM 访问 内 存 所 需 的 时 间 基 本 相同 。 


铀 FE， 音频 


令 “内存 : 程序 运行 时 的 存储 空间 ， 同 时 还 存储 程序 运行 时 所 需 的 数据 。 
2 DRAM: 动态 随机 访问 存储 器 ， 集 成 电路 形式 的 存储 器 ， 可 随机 访问 任何 地 址 的 内 存 。 在 
2012 年 ， 其 访问 时 间 大 约 为 50ns， 每 gigabyte 的 价格 为 5 ~ 10 美元 。 


进一步 深入 了 解 任何 一 个 硬件 部 件 会 加 深 对 计算 机 的 理解 。 在 处 理 器 内 部 使 用 的 是 另外 一 
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种 存储 器 一 一 缓存 。 缓 存 (cache memory) 是 一 种 小 而 快 的 存储 器 ， 一 般 作 为 DRAM 的 缓冲 
(缓存 的 一 个 非 技 术 性 的 定义 是 一 个 隐藏 事物 的 安全 地 方 ) 。cache 采用 的 是 另 一 种 存储 技术 ， 
称 为 静态 随机 访问 存储 器 (Static Random Access Memory，SRAM ) ， 其 速度 更 快 而 且 不 那么 密 
集 ， 因 此 价格 比 DRAM 更 贵 ( 见 第 5 章 ) 。SRAM 和 DRAM 是 存储 器 层次 中 的 两 层 。 


2 缓存: 缓存 是 一 种 小 而 快 的 存储 器 ， 一 般 作 为 大 而 慢 的 存储 器 的 缓冲 。 
静态 随机 访问 存储 器 : 一 种 集成 电路 形式 的 存储 器 ， 但 是 比 DRAM 更 快 ， 集 成 度 更 低 。 


如 前 所 述 ， 改 进 设计 的 一 个 伟大 思想 是 抽象 。 最 重要 的 抽象 之 一 是 硬件 和 底层 软件 之 间 
的 接口 。 鉴 于 其 重要 性 ， 该 抽象 被 命名 为 计算 机 的 指令 集体 系 结构 〈 instruction set architec- 
ture) ， 或 简称 体系 结构 (architecture)。 计 算 机 体系 结构 包括 程序 员 正 确 编写 二 进 制 机 器 语 
言 程序 所 需 的 全 部 信息 ， 如 指令 、LO 设备 等 。 一 般 来 说 ,操作 系统 需要 封装 LO 操作 、 存 
储 器 分 配 和 其 他 低级 的 系统 功能 细节 ， 以 便 应 用 程序 员 无 需 在 这 些 细节 上 分 心 。 提 供给 应 
用 程序 员 的 基本 指令 集 和 操作 系统 接口 合 称 为 应 用 二 进 制 接口 (Application Binary Interface， 
ABI) 。 


驴 。” 指令 集体 系 结构 :也 叫 体 系 结构 ， 是 低层 次 软件 和 硬件 之 间 的 抽象 接口 ， 包 含 了 需要 编写 
正确 运行 的 机 器 语言 程序 所 需要 的 全 部 信息 ， 包 括 指 令 、 寄 存 器 、 存 储 访 问 和 LO 等 。 

人 应 用 二 进 制 接口 : 用 户 部 分 的 指令 加 上 应 用 程序 员 调 用 的 操作 系统 接口 ， 定 义 了 二 进 制 层 
次 可 移植 的 计算 机 的 标准 。 


计算 机 体系 结构 可 以 让 计算 机 设计 者 独立 地 讨论 功能 ， 而 不 必 考 虑 具体 硬件 。 例 如 ， 我 们 
讨论 数字 时 钟 的 功能 〈 如 计时 、 显 示 时 间 、 设 置 闹钟 ) 时 ， 可 以 不 涉及 时 钟 的 硬件 (如 石英 
晶体 、LED 显示 、 按 钮 ) 。 计 算 机 设计 者 将 体系 结构 与 体系 结构 的 实现 〈implementation) 分 开 
考虑 也 是 沿 着 同样 的 思路 : 硬件 的 实现 方式 必须 依照 体系 结构 的 抽象 。 这 些 概念 产生 了 另 一 个 
重点 。 


2 实现 : 遵循 体系 结构 抽象 的 硬件 。 


团 | 重点 无论 硬件 还 是 软件 都 可 以 使 用 抽象 分 成 多 个 层次 ， 每 个 较 低 的 层次 把 细节 对 上 层 隐 
藏 起 来 。 抽 象 层 次 中 的 一 个 关键 接口 是 指令 集体 系 结构 一 硬件 和 底层 软件 之 间 的 接口 。 
这 一 抽象 接口 使 得 同一 软件 可 以 由 成 本 不 同 、 性 能 也 不 同 的 实现 方法 来 完成 。 


1.4.4 数据 安全 


目前 为 止 ， 我 们 已 经 理解 了 如 何 输入 数据 ， 如 何 使 用 这 些 数据 进行 计算 ,以 及 如 何 显示 结 
果 。 然 而 ,一 旦 关 掉 电源 ， 所 有 数据 就 丢失 了 ， 因 为 计算 机 中 的 内 存 是 易 失 性 存储 器 volatile 
memory ) 。 与 之 不 同 的 是 ， 如 果 关 掉 DVD 机 的 电源 ， 所 记录 的 内 容 将 不 会 丢失 ， 因 为 DVD 采 
用 的 是 非 易 失 性 存储 器 ( nonvolatile memory ) 。 


” 易 失 性 存储 器 : 类 似 DRAM 的 存储 器 ， 仅 在 加 电 时 保存 数据 。 
允 ” 非 易 失 性 存储 器 在 掉 电 时 仍 可 保持 数据 的 存储 器 ， 用 于 存储 运行 间 的 程序 ， 例 如 DVD。 


为 了 区 分 易 失 性 存储 器 与 非 易 失 性 存储 器 ， 我 们 将 前 者 称 为 主 存 储 器 (main memory 或 
primary memory) ， 将 后 者 称 为 二 级 存储 器 (secondary memory) 。 二 级 存储 器 形成 了 存储 器 层次 
中 下 面 更 低 的 一 层 。DRAM 自 1975 年 起 在 主 存储 器 中 占 主导 地 位 ， 而 磁盘 (magnetic disk) 在 
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二 级 存储 器 中 占 主导 地 位 的 时 间 更 早 。 由 于 器 件 尺 寸 和 前 面 所 述 的 特点 ， 非 易 失 性 半导体 存储 
器 一 一 闪存 (flash memory) 在 个 人 移动 设备 中 替代 了 磁盘 。 图 1-8 所 示 的 iPad 2 中 的 芯片 上 包 
含 了 闪存 。 除 了 非 易 失 性 外 ， 闪 存 比 DRAM 慢 ， 但 却 便宜 很 多 。 虽 然 每 位 的 价格 高 于 磁盘 ， 但 
是 闪存 在 体积 、 电 容 、 可 靠 性 和 能 耗 方面 都 优 于 磁盘 。 因 此 闪存 是 PMD 的 二 级 存储 器 的 标准 。 
遗憾 的 是 ， 与 硬盘 和 DRAM 不 同 的 是 ， 闪 存 具 有 写 100 000 ~ 1 000 000 次 后 老化 或 损坏 的 弱点 。 
因此 ， 文 件 系统 必须 记录 写 操作 的 数目 ， 而 且 具 备 避免 存储 器 损坏 的 策略 ， 例 如 ， 避 免 移动 经 
常 使 用 的 数据 。 第 5 章 将 会 详细 介绍 磁盘 和 闪存 。 


人 主 存 储 器 : 也 叫 主要 存储 器 。 这 个 存储 器 用 来 保持 运行 中 的 程序 ， 在 现代 计算 机 中 一 般 由 
DRAM 组 成 。 

”二 级 存储 器 : 非 易 失 性 存储 器 ， 用 来 保存 两 次 运行 之 间 的 程序 和 数据 。 在 个 人 移动 设备 中 
一 般 由 闪存 组 成 ， 在 服务 器 中 由 磁盘 组 成 。 

人 磁盘: 也 叫 硬 盘 (hard disk)， 是 使 用 磁 介 质 材 料 构 成 的 以 旋转 盘 片 为 基础 的 非 易 失 性 二 
级 存储 设备 。 因 为 是 旋转 的 机 械 设 备 ， 所 以 磁盘 的 方位 时 间 大 约 是 5~20 毫秒 ，2012 年 每 
g 字 节 的 价格 大 约 为 0.05 ~0.1 美元 。 

允 ” 内存: 一 种 非 易 失 性 半导体 内 存 ， 单 位 价格 和 速度 均 低 于 DRAM， 但 单位 价格 比 磁 盘 高 ， 速 度 
比 磁盘 快 。 其 访问 时 间 大 约 为 5~50 毫秒 ，2012 年 每 g 字 节 的 价格 大 约 为 0.75 ~1 美元 。 


1.4.5 与 其 他 计算 机 通信 


我 们 已 经 介绍 了 如 何 输入 、 计 算 、 显 示 和 保存 数据 ， 但 对 于 今天 的 计算 机 来 说 ， 还 有 一 项 
不 可 缺少 的 功能 : 计算 机 网 络 。 如 图 1-5 所 示 ， 处 理 器 与 存储 器 和 IO 设备 连接 。 通 过 网 络 ， 
计算 机 可 以 与 其 他 计算 机 通信 ， 从 而 扩展 计算 能 力 。 当 今 网 络 已 经 十 分 普遍 ， 逐 步 成 为 了 计算 
机 系统 的 主干 。 一 台新 型 个 人 移动 设备 或 服务 器 如 果 没 有 网 络 接口 将 是 十 分 可 笑 的 。 联 网 的 计 
算 机 具有 如 下 几 个 主要 优点 : 

。 通信 : 在 计算 机 之 间 高 速 交换 信息 。 

。 资源 共享 : 有 些 0 设备 可 以 由 网 络 上 的 计算 机 共享 ， 不 必 每 台 计 算 机 都 配备 。 

。 远 距离 访问 : 用 户 可 以 不 必 在 计算 机 的 旁边 ， 而 是 在 很 远 的 地 方 使 用 计算 机 。 

根据 传输 速度 以 及 信息 传输 的 距离 ， 通 信 代 价 随 之 增长 ， 网 络 的 传输 距离 和 性 能 是 多 种 多 
样 的， 最 为 普遍 的 网 络 类 型 是 以 太 网 。 它 的 传输 距离 可 达到 1 000 千 米 ,传输 速率 可 达到 
40Gbps。 以 太 网 的 传输 距离 和 速率 可 以 将 一 个 建筑 物 中 同一 层 的 计算 机 连接 起 来 ， 这 就 形成 了 
通常 称 为 局 域 网 (Local Area Network ，LAN) 的 一 个 例子 。 局 域 网 通过 交换 机 进行 连接 ， 可 以 
提供 路 由 与 安全 服务 。 广 域 网 可 支持 万 维 网 (Wodd Wide Web) ， 作 为 因特网 的 骨干 网 ， 以 光 
纤 为 基础 并 向 通信 公司 租用 。 


”局 域 网 : 一 种 在 一 定 地 理 区 域 (例如 在 同一 栋 大 楼 内 ) 使 用 的 传输 数据 的 网 络 。 
2 广域网: 一 种 可 将 区 域 扩 展 到 几 百 千 米 范 围 的 网 络 。 


在 过 去 的 30 年 间 ， 因 为 广泛 的 使 用 和 性 能 的 大 幅度 提升 ， 网 络 已 经 改变 了 计算 的 方式 。 在 
20 世纪 70 年 代 ， 个 人 很 难 接触 到 电子 邮件 ， 网 络 和 Web 还 不 存在 ,物理 上 的 邮件 介质 磁带 成 为 
传输 两 地 之 间 大 容量 数据 的 主要 载体 。 局 域 网 根本 不 存在 ， 少 数 几 个 广域网 限制 了 容量 和 访问 。 
随 着 网 络 技术 的 进步 ， 网 络 变 得 越 来 越 便宜 ， 速 度 越 来 越 快 。 在 30 多 年 前 ， 第 一 个 标准 
局 域 网 的 最 大 带宽 为 10Mbps， 支 持 数 十 台 计算 机 共享 工作 。 今 天 ， 局 域 网 技术 已 能 提供 从 
100Mbps ~ 10Gbps 的 带宽 。 光 通信 技术 已 经 使 广域网 有 了 类 似 的 发 展 ， 从 几 百 Kbps 到 Gbps 的 


带宽 ， 支 持 几 百 台 到 几 百 万 台 计 算 机 与 全 球 网 络 互 连 。 网 络 规模 的 飞速 扩大 ， 伴 随 着 带宽 的 急 
剧 增长 ， 使 得 网 络 技术 成 为 最 近 30 年 来 信息 革命 的 中 心 。 

最 近 10 年 来 ， 新 的 联网 创新 变革 了 计算 机 通信 的 方式 。 推 动 后 PC 时 代 (PostPC Eva) 的 
无 线 技术 广泛 应 用 ， 加 上 原本 用 来 生产 无 线 电 的 廉价 的 半导体 (CMOS) 技术 被 用 来 生产 存储 
器 和 微 处 理 器 ， 使 其 价格 大 幅度 降低 ， 产 量 剧 增 。 当 前 无 线 通信 技术 (IEEE 标准 802. 11) 支 
持 从 1Mbps 到 近 100Mbps 的 传输 速率 。 无 线 技 术 和 基于 线路 的 网 络 相当 不 同 ， 因 为 所 有 用 户 可 
以 在 最 近 的 区 域 里 共享 电波 。 


著 ] 小 测验 
半导体 DRAM 、 闪 存 和 磁盘 存储 有 很 大 差别 。 试 从 易 失 性 、 访 问 时 间 和 价格 三 方面 进行 
比较 。 


1.5 处 理 器 和 存储 器 制造 技术 


处 理 器 和 存储 器 正在 以 难以 置信 的 速度 进步 ， 因 为 计算 机 设计 者 一 直 采 用 最 新 的 电子 技术 
进行 设计 ， 以 期 在 竞争 中 取得 优势 . 图 1-10 描述 了 不 断 进步 的 各 种 新 型 技术 ,包括 其 出 现 的 
时 间 和 性 价 比 。 这 些 技术 确定 了 计算 机 能 够 做 什么 ， 以 及 以 多 快 的 速度 发 展 变化 。 我 们 相信 ， 
所 有 计算 机 专业 人 员 都 应 该 熟悉 集成 电路 的 基础 知识 。 


计算 机 中 采用 的 技术 相对 性 价 比 
5 和 | 
集成 电路 


0 
超大 规模 和 成 二 路 
大 大 规模 集成 电路 
图 1-10 随 着 时 间 的 发 展 ， 不 同 计算 机 实现 技术 的 性 价 比 。 来 源 : 波士顿 计算 机 博物 馆 ， 其 
中 2013 年 的 数据 由 作者 推断 得 到 ( 见 1.12 节 ) 





晶体 管 (transistor) 仅仅 是 一 种 受 电流 控制 的 开关 。 集 成 电路 (IC) 是 由 成 千 上 万 个 唱 
管 组 成 的 芯片 。 当 戈 登 ， 摩尔 预测 资源 持续 翻番 时 ， 他 是 在 预测 单 芯片 上 晶体 管 数量 的 增长 速 
度 。 为 了 描述 这 些 晶 体 管 从 几 百 个 增长 到 成 千 上 万 的 情形 ， 形 容 词 “ 超 大 规模 ”被 添加 到 术 
语 中 ， 简 写 为 VLSI， 即 超大 规模 集成 电路 (very large-scale integrated circuit ) 。 


晶体管: 一 种 由 电信 号 控制 的 简单 开关 。 
”超大 规模 集成 电路 : 由 数 十 万 到 数 百 万 晶体 管 组 成 的 电路 。 


集成 度 的 增长 率 是 相当 稳定 的 。 图 1-11 表示 自 1977 年 以 来 DRAM 容量 的 发 展 情况 。 近 20 
多 年 以 来 ， 每 隔 3 年 DRAM 的 容量 就 增长 4 倍 ， 累 积 增长 已 超过 16 000 倍 。 

为 了 理解 集成 电路 的 制造 过 程 ， 我 们 从 头 开始 介绍 。 芯 片 的 制造 从 硅 (silicon) 开始 ， 硅 
是 沙子 中 的 一 种 物质 。 因 为 硅 的 导电 能 力 不 强 ， 因 此 称 为 半导体 〈semiconductor) 。 用 特殊 的 
化 学 方法 对 硅 添 加 某 些 材料 ， 可 以 把 其 细微 的 区 域 转变 为 以 下 三 种 类 型 之 一 : 

。 良好 的 导电 体 (类 似 于 细微 的 铜 线 或 铝 线 ) 。 

。 良好 的 绝缘 体 (类似 于 塑料 或 玻璃 膜 ) 。 

。 可 控 的 导电 体 或 绝缘 体 (类 似 开 关 ) 。 


” 硅 : 一 种 自然 元 素 ， 它 是 一 种 半导体 。 
了 半导体: 一 种 导电 性 能 不 好 的 物质 。 
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图 1-11 单 片 DRAM 容量 随时 间 的 增长 。 纵 轴 单 位 为 Kb， 其 中 为 1024 (2" 位 )。 在 近 20 多 年 中 , 平 
均 每 隔 3 年 DRAM 容量 扩大 4 倍 ， 即 每 年 增长 约 60% 。 在 最 近 几 年 中 ,增长 速度 有 所 下 降 ， 接 
‘ 近 每 2 ~3 年 翻 一 番 的 水 平 


晶体 管 属于 第 三 种 VLSI 电路 ， 是 由 数 亿 个 上 述 三 种 材料 组 合 起 来 并 封装 在 一 起 所 制 成 的 。 

集成 电路 的 制造 过 程 对 芯片 的 价格 非常 关键 ， 因 此 对 计算 机 设计 者 十 分 重要 。 图 1-12 表 
示 了 集成 电路 制造 的 整个 过 程 。 集 成 电路 的 制造 是 从 硅 锭 (silicon crystal ingot) 开始 的 ， 它 像 
一 根 巨大 的 香肠 。 目 前 使 用 的 硅 锭 直径 约 8 ~ 12 英寸 ,长 度 约 12 ~24 英寸 。 硅 锭 经 切片 机 切 
成 厚度 不 超过 0. 1 英寸 的 晶 圆 〈wafer) 。 这 些 晶 圆 经 过 一 系列 化 学 加 工 过 程 最 终 产生 之 前 所 讨 
论 的 晶体 管 、 导 体 和 绝缘 体 。 如 今 的 集成 电路 只 包含 一 层 晶体 管 ， 但 是 可 能 具有 多 个 绝缘 层 间 
隔 的 2 ~8 层 金属 导体 。 


驴 “ 硅 锭 : 一 块 由 硅 晶 体 组 成 的 棒 。 直 径 大 约 在 8 ~12 英寸 ,长 度 约 12 ~24 英寸 。 
令 “ 晶 圆 : 厚度 不 超过 0. 1 英寸 的 硅 锭 片 ， 用 来 制造 芯片 。 





图 1-12 芯片 制造 的 全 过 程 。 从 硅 锭 切 下 来 之 后 ， 空 白 的 唱 圆 经 过 大 约 20 ~ 40 步 的 加 工 ， 产 生 图 样 化 
的 晶 圆 〈 见 图 1-13) 。 这 些 图 样 化 的 唱 圆 由 唱 圆 测试 器 进行 测试 ， 测 试 后 生成 一 张 图 ， 表 明 哪 
些 部 分 是 合格 的 。 之 后 ， 这 些 晶 圆 被 进一步 切 成 芯片 〈 见 图 1-9) 。 在 本 图 中 ,一 个 晶 圆 能 生 
产 20 个 芯片 ， 其 中 有 17 个 通过 测试 (X 意味 着 这 个 芯片 是 坏 的 ) 。 本 例 中 芯片 的 良 率 (又 称 
成 品 率 ) 是 17/20， 也 就 是 85% 。 这 些 合格 芯片 被 封装 起 来 并 且 在 发 布 给 用 户 之 前 经 过 多 次 测 
试 。 不 合格 的 封装 会 在 最 终 测试 中 被 发 现 
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晶 圆 中 或 是 在 图 样 化 的 几 十 个 步骤 中 出 现 一 个 细微 的 瑕 盖 就 会 使 其 附近 的 电路 损坏 ， 这 些 
瑕 疲 (defect) 使 得 制 成 一 个 完美 的 晶 圆 几乎 是 不 可 能 的 。 有 几 种 策略 可 以 解决 这 一 问题 ， 最 
简单 的 策略 是 把 唱 圆 切 分 成 许多 独立 的 晶 圆 ， 也 就 是 现在 所 称 的 芯片 〈die) ， 更 正式 的 叫 法 是 
chip。 图 1-13 所 示 就 是 切 分 前 的 微 处 理 器 唱 圆 ， 而 图 1-9 则 是 单个 微 处 理 器 芯片 。 [26 | 





图 1-13 Intel Core i7 芯片 的 12 英寸 (300mm) 晶 圆 (Intel 提供 ) 。 良 率 为 100% 的 圆 片 中 的 晶 圆 的 数目 
是 280， 每 个 为 20.7mm x10. 5mm。 晶 圆 边缘 几 十 个 不 完整 的 芯片 是 没 用 的 。 之 所 以 包含 它们 ， 
是 因为 这 样 给 硅 片 生产 掩 膜 相当 容易 。 芯 片 使 用 32nm 的 工艺 ,这 意味 着 最 小 的 晶体 管 的 尺寸 
几乎 接近 32nm， 尽 管 它们 通常 比 实际 的 特征 尺寸 还 要 小 ， 这 个 特征 尺寸 是 将 晶体 管 “ 图 纸 义 
寸 ” 和 最 终 的 生产 尺寸 相 比 得 出 的 


通过 切 分 ， 可 以 只 淘 涩 那些 有 瑕 疫 的 芯片 ， 而 不 必 淘 汰 整个 晶 圆 。 对 这 一 过 程 的 量化 描述 
可 以 用 成 品 率 (yield) 来 表示 ， 其 定义 为 合格 芯片 数 占 总 芯片 数 的 百分比 。 


2 有 瑕 疯 : 晶 贺 上 一 个 微小 的 缺陷 ， 或 者 在 图 样 化 的 过 程 中 因为 包含 这 个 缺陷 而 导致 芯片 
失效 。 

2 芯片 从 晶 圆 中 切割 出 来 的 一 个 单独 的 矩形 区 域 ， 更 加 正式 的 英文 名 称 是 chip。 

2 成品 率 : 合格 芯片 数 占 总 芯片 数 的 百分比 。 


当 芯 片 尺寸 增 大 时 ， 集 成 电路 的 价格 会 快速 上 升 ， 因 为 成 品 率 和 晶 圆 中 芯片 的 总 数 都 下 降 

了 。 为 了 降低 价格 ， 大 芯片 常 采用 下 一 代 工 艺 进行 尺寸 收缩 (包括 晶体 管 和 导线 ) ， 从 而 改进 

每 晶 圆 的 芯片 数 和 成 品 率 。2012 年 的 典型 工艺 尺寸 为 32nm， 这 意味 着 芯片 上 的 最 小 特征 尺寸 

是 32nm。 [27 
合格 芯片 要 连接 到 IO 引 脚 上 ， 这 一 过 程 称 为 封装 。 在 封装 之 后 ， 必 须 进行 最 后 一 次 测 

试 ， 因 为 封装 过 程 也 可 能 出 错 。 最 后 芯片 被 交付 给 用 户 。 


葬 ] 精 解 ”集成 电路 的 成 本 可 以 用 下 面 3 个 简单 公式 来 表示 : 


[28 | 
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每 芯片 的 价格 = 每 晶 圆 的 价格 /( 每 晶 圆 的 芯片 数 x 成 品 率 ) 
每 晶 圆 的 芯片 数 = 唱 圆 面积 /芯片 面积 
成 品 率 = 1/(1 + (单位 面积 的 瑕 疫 数 x 芯片 面积 /2))” 

第 1 个 公式 是 直接 导出 的 。 第 2 个 公式 是 近似 的 ， 因 为 没有 减 去 晶 圆 边 上 不 满足 芯片 矩形 
要 求 的 面积 (参见 图 1-13)。 第 3 个 公式 是 基于 集成 电路 工厂 的 成 品 率 经 验 ， 与 重要 加 工 
步骤 的 数量 呈 指 数 关 系 。 

因此 ， 芯 片 的 成 本 取决 于 成 品 率 以 及 芯片 和 晶 圆 的 面积 ， 与 芯片 面积 之 间 的 关系 一 般 
不 是 线性 的 。 


印 | 小 测验 
产量 是 决定 集成 电路 价格 的 关键 因素 。 下 列 哪些 理由 说 明了 芯片 产量 越 高 成 本 就 越 低 ? 
. 高 产量 使 得 在 制造 过 程 中 能 够 适当 调节 设计 ， 从 而 提高 成 品 率 。 
. 设计 高 产量 芯片 的 工作 量 比 设计 低产 量 芯片 小 。 
. 制造 芯片 用 的 掩 膜 很 贵 ， 产 量 高 时 每 芯片 的 掩 膜 成 本 就 低 。 
. 工程 开发 的 成 本 高 ， 并 且 基 本 与 产量 无 关 ， 故 产量 高 时 每 芯片 的 开发 成 本 较 低 。 
. 产量 高 时 ， 通 常 每 芯片 的 面积 比 产量 低 时 小 ， 因 此 成 品 率 较 高 。 


1.6 性 能 


对 计算 机 的 性 能 进行 评价 是 富有 挑战 性 的 。 由 于 现代 软件 系统 的 规模 及 其 复杂 性 ， 加 上 硬 
件 设计 者 采用 了 大 量 先 进 的 性 能 改进 方法 ,使 性 能 评价 极为 困难 。 

在 不 同 的 计算 机 中 挑选 合适 的 产品 ， 性 能 是 极其 重要 的 因素 之 一 。 精 确 地 测量 和 比较 不 同 
计算 机 之 间 的 性 能 对 于 购买 者 和 设计 者 都 很 重要 。 销 售 计 算 机 的 人 也 需要 知道 这 些 。 销 售 人 员 
通常 希望 用 户 看 到 他 们 的 计算 机 表现 最 好 的 一 面 ， 无 论 这 一 面 是 否 能 准确 地 反映 购买 者 的 应 用 
需求 。 因 此 ， 理 解 怎样 才能 更 合理 地 测量 性 能 以 及 测定 所 选择 的 计算 机 的 性 能 限制 相当 重要 。 

本 节 将 首先 介绍 性 能 评价 的 不 同方 法 ， 然 后 分 别 从 计算 机 用 户 和 设计 者 的 角度 描述 性 能 测 
量 的 度量 标准 ， 最 后 还 要 分 析 这 些 度量 标准 之 间 有 什么 联系 ， 并 提出 经 典 的 处 理 器 性 能 方程 
式 ， 我 们 在 全 书 中 都 要 使 用 它 进 行 性 能 分 析 。 


1.6.1 性 能 的 定义 


当 我 们 说 一 台 计 算 机 比 男 一 台 计 算 机 具有 更 好 的 性 能 时 意味 着 什么 ? 虽然 这 个 问题 看 起 来 
很 简单 ， 但 实际 上 却 内 藏 玄机 。 我 们 可 以 先 用 客机 问题 模拟 一 下 。 图 1-14 表示 若干 典型 客机 
的 型 号 、 载 客 量 、 航 程 、 航 速 等 参数 。 如 果 我 们 要 指出 表 中 哪 架 客机 的 性 能 最 好 ， 那 么 我 们 首 
先 要 对 性 能 进行 定义 。 如 果 考 虑 不 同 的 性 能 度量 ， 那 么 性 能 最 佳 的 客机 是 不 同 的 。 我 们 可 以 看 
到 ， 巡 航速 度 最 高 的 是 Concorde， 航 程 最 远 的 是 DC-8-50， 载 客 量 最 大 的 是 747。 


航速 乘客 吞吐 率 
飞机 (英里 /小 时 ) 


( 载 客 量 x 巡航 速度 ) 
7 | 375 | 460 | 60 |[ 228750 
4150 610 286700 
4000 


178 200 


Douglas DO850 | 146 | 8720 19 424 


图 1-14 若干 商用 飞机 的 载 客 量 、 航 程 和 航速 。 最 后 一 列 展示 的 是 飞机 运载 乘客 的 速度 ， 它 等 于 容 
量 乘 以 航行 速度 (忽略 距离 、 起 飞 和 降落 次 数 ) 
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即使 假定 用 速度 来 定义 性 能 ， 这 里 仍然 有 两 种 可 能 的 定义 。 如 果 你 关心 点 对 点 的 到 达 时 
间 ， 那 么 可 以 将 只 搭载 一 名 旅客 的 巡航 速度 最 快 的 客机 认为 是 性 能 最 好 的 。 如 果 你 关心 的 是 运 
输 450 名 旅客 ， 那 么 如 图 中 最 后 一 列 所 示 ，747 的 性 能 是 最 好 的 。 与 此 类 似 , 我 们 可 以 用 若干 
不 同 的 方法 来 定义 计算 机 性 能 。 

如 果 你 在 两 台 不 同 的 桌面 计算 机 上 运行 同一 个 程序 ， 那 么 你 可 以 说 首先 完成 作业 的 那 台 计 算 
机 更 快 。 如 果 你 运行 的 是 一 个 数据 中 心 ， 它 有 好 几 台 服务 器 供 很 多 用 户 投放 作业 ， 那 你 应 该 说 在 
一 天 之 内 完成 作业 最 多 的 那 台 计 算 机 更 快 。 个 人 计算 机 用 户 会 对 降低 响应 时 间 ( response time ) 
感 兴趣 ， 响 应 时 间 是 指 从 开始 一 个 任务 到 该 任务 完成 的 时 间 ， 又 称 为 执行 时 间 。 而 数据 中 心 感 
兴趣 的 常常 是 吞吐 率 (throughput) 。 因 此 ， 在 很 多 情形 下 ， 和 关注 吞吐 率 的 服务 器 相 比 ， 我 们 
需要 对 艇 人 式 以 及 台式 计算 机 采用 不 同 的 应 用 程序 作为 测试 基准 和 不 同 的 性 能 度量 标准 。 


全 ”响应 时 间 : 也 叫 执行 时 间 (execution time) ， 是 计算 机 完成 某 任务 所 需 的 总 时 间 ， 包 括 硬 
盘 访 问 、 内 存 访问 、L0 活动 、 操 作 系统 开销 和 CPU 执行 时 间 等 。 

人 吞吐 率 : 也 叫 带宽 (bandwidth) ， 性 能 的 另 一 种 度量 参数， 表示 单位 时 间 内 完成 的 任务 
数量 。 


邯 | 例题 . 吞吐 率 和 响应 时 间 

下 面 两 种 改进 计算 机 系统 的 方式 能 否 增加 其 吞吐 率 或 减少 其 响应 时 间 ， 或 既 增 加 其 吞吐 率 
又 减少 其 响应 时 间 ? 

1. 将 计算 机 中 的 处 理 器 更 换 为 更 高 速 的 型 号 。 

2. 增加 多 个 处 理 器 来 分 别处 理 独立 的 任务 ， 如 搜索 万 维 网 。 


团 | 答案 
一 般 来 说 ， 降 低 响应 时 间 几 乎 都 可 以 增加 吞吐 率 。 因 此 , 方式 1 同时 改进 了 响应 时 间 和 香 
吐 率 。 方 式 2 不 会 使 任务 完成 得 更 快 ， 只 会 增加 其 吞吐 率 。 口 


但 是 ， 当 需要 处 理 更 多 的 任务 时 ， 系 统 可 能 需要 令 后 续 请 求 排队 。 在 这 种 情况 下 ， 随 着 吞 
吐 率 的 增加 ， 可 同时 改进 响应 时 间 ， 因 为 这 缩小 了 排队 等 待 时 间 。 所 以 ， 在 实际 的 计算 机 系统 
中 ， 响 应 时 间 和 吞吐 率 往往 相互 影响 。 
在 讨论 计算 机 性 能 时 ， 本 书 前 几 章 将 主要 考虑 响应 时 间 方 面 。 为 了 使 性 能 最 大 化 ， 我 们 希 
望 任务 的 响应 时 间或 执行 时 间 最 小 化 。 对 于 某 个 计算 机 X， 我 们 可 以 表达 为 : 
性 能 x = LV 执行 时 间 x 
如 果 有 两 台 计 算 机 X 和 YY,，X 比 Y 性 能 更 好 ， 则 
性 能 x > 性 能 、 
1/ 执行 时 间 x > 17 执行 时 间 ， 
执行 时 间 ，> 执行 时 间 x 
也 就 是 说 ， 如 果 X 比 了 快 , 那么 Y 的 执行 时 间 比 X 长 。 
在 讨论 计算 机 设计 时 ， 经 常 要 定量 地 比较 两 台 不 同 计算 机 的 性 能 。 我 们 将 使 用 “X 是 了 的 
n 倍 快 ”的 表态 方式 ， 即 
性 能 x/ 性 能 , = 
如 果 X 比 Y 快 n 倍 ， 那么 在 Y 上 的 执行 时 间 是 在 XY 上 执行 时 间 的 nn 售 ， 即 
性 能 X/ 性 能 Y= 执行 时 间 YY 执行 时 间 X=n 


邯 ] 例题 .相对 性 能 
如 果 计 算 机 A 运行 一 个 程序 只 需要 10 秒 ， 而 计算 机 B 运行 同样 的 程序 需要 15 秒 ， 那 么 计 
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算 机 A 比 计算 机 B 快 多 少 ? 


团 ] 答案 
我 们 知道 , A 是 B 的 n 倍 快 ， 则 
性 能 ,/ 性 能 = 执行 时 间 s/ 执 行 时 间 , =n 
故 性 能 比 为 
1S5/10=1.5 
因此 A 是 B 的 1.5 倍 快 。 0 


在 以 上 的 例子 中 ,我 们 可 以 说 ,计算 机 B 比 计算 机 A 慢 1.5 倍 ， 因 为 
性 能 /性 能 。 =1.5 
意味 着 
性 能 ,V1.5 = 性 能 。 
简单 地 说 ， 当 我 们 试图 将 计算 机 的 比较 结果 量化 时 ， 我 们 通常 使 用 术语 “ 比 什么 快 ” 。 因 
为 性 能 和 执行 时 间 是 倒数 关系 ， 提 高 性 能 就 需要 减少 执行 时 间 。 为 了 避免 对 术语 “增加 ”和 
“降低 ”潜在 的 误解 ， 当 我 们 想 说 “改善 性 能 ”和 “改善 执行 时 间 ” 的 时 候 ， 我 们 通常 说 “ 增 
加 性 能 ”或 者 “降低 执行 时 间 ”。 


1. 6.2 性 能 的 度量 


如 果 用 时 间 来 度量 计算 机 的 性 能 ， 那 么 完成 同样 的 计算 任务 ,需要 时 间 最 少 的 计算 机 是 最 
快 的。 程序 的 执行 时 间 一 般 以 秒 为 单位 。 然 而 ， 时 间 可 以 根据 我 们 的 计量 方法 选用 不 同 的 表示 
方法 。 对 时 间 最 直接 的 定义 是 墙 上 时 钟 时 间 (wall clock time) ， 也 叫 响应 时 间 (response time) 、 
消逝 时 间 (elapsed time) 等 。 这 些 术 语 均 表示 完成 任务 所 需 的 总 时 间 ， 包 括 了 硬盘 访问 、 内 存 
访问 、LO 操作 和 操作 系统 开销 等 一 切 时 间 。 

多 用 户 经 常 共享 同一 计算 机 ， 一 个 处 理 器 需要 同时 运行 几 个 程序 。 在 这 种 情况 下 ， 系 统 可 
能 更 侧重 于 优化 吞吐 率 ， 而 不 是 最 小 化 一 个 程序 的 响应 时 间 。 因 此 ， 我 们 往往 要 把 运行 我 们 自 
己 的 任务 的 时 间 与 一 般 的 响应 时 间 区 别 开 来 。 我 们 可 以 使 用 CPU 执行 时 间 (CPU execution 
time) ， 简 称 CPU 时 间 ， 它 只 表示 在 CPU 上 花费 的 时 间 ， 而 不 包括 等 待 LO 或 运行 其 他 程序 的 
时 间 。( 需 要 注意 的 是 ， 用 户 所 感受 到 的 是 程序 的 响应 时 间 ， 而 不 是 CPU 时 间 。) CPU 时 间 还 
可 进一步 分 为 用 于 用 户 程 序 的 时 间 和 操作 系统 为 用 户 服务 花 去 的 CPU 时 间 。 前 者 称 为 用 户 
CPU 时 间 (user CPU time) ， 后 者 称 为 系统 CPU 时 间 (system CPU time)。 要 精确 区 分 这 两 种 
CPU 时 间 是 困难 的 ， 因 为 通常 难以 分 清 哪 些 操作 系统 的 活动 是 属于 哪个 用 户 程 序 的 ， 而 且 不 同 
操作 系统 的 功能 也 千差万别 。 


叉 。” CPU 执行 时 间 : 简称 CPU 时 间 ， 执 行 菜 一 任务 在 CPU 上 所 花费 的 时 间 。 
允 ”用 户 CPU 时 间 : 在 程序 本 身 所 花费 的 CPU 时 间 。 
人 “系统 CPU 时 间 : 为 执行 程序 而 花费 在 操作 系统 上 的 时 间 。 


为 了 一 致 性 ,我 们 保持 基于 响应 时 间 和 基于 CPU 执行 时 间 的 性 能 差异 。 我 们 使 用 术语 系 
统 性 能 (system performance) 表示 空 载 系统 的 响应 时 间 ， 并 用 术语 CPU 性 能 〈CPU perform- 
ance) 表示 用 户 CPU 时 间 。 本 章 我 们 概括 介绍 了 计算 机 性 能 ， 既 适用 于 响应 时 间 的 度量 ， 也 适 
用 于 CPU 时 间 的 度量 ， 但 本 章 的 重点 将 放 在 CPU 性 能 上 。 


力 ! 理解 程序 性 能 不 同 的 应 用 关注 计算 机 系统 性 能 的 不 同方 面 。 许 多 应 用 ， 特 别 是 那些 运行 
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在 服务 器 上 的 应 用 ,主要 关注 LO 性 能 ， 所 以 此 类 应 用 既 依赖 硬件 又 依赖 软件 ， 对 墙 上 时 
钟 时 间 最 感 兴趣 。 而 在 其 他 一 些 应 用 中 ， 用 户 可 能 对 吞吐 率 、 响 应 时 间或 两 者 的 复杂 组 合 
更 为 关注 (例如 ， 最 差 响应 时 间 下 的 最 大 吞吐 率 )。 要 改进 一 个 程序 的 性 能 ， 必 须 明 确 性 
能 的 定义 ， 然 后 通过 测量 程序 执行 时 间 来 寻找 可 能 的 性 能 瓶颈 。 在 后 面 的 章节 中 ， 我 们 将 
介绍 如 何在 系统 的 各 个 部 分 寻找 瓶颈 ， 以 改进 性 能 。 


虽然 作为 计算 机 用 户 我 们 关心 的 是 时 间 ， 但 当 我 们 深入 研究 计算 机 的 细节 时 ， 使 用 其 他 的 
度量 可 能 更 为 方便 。 对 计算 机 设计 者 来 说 ， 他 们 需要 考虑 如 何 度量 计算 机 硬件 完成 基本 功能 的 
速度 。 几 乎 所 有 计算 机 都 用 时 钟 来 驱动 硬件 中 发 生 的 各 种 事件 。 时 钟 间隔 的 时 间 称 为 时 钟 周期 
(clock cycle) 。 也 可 用 它 的 倒数 来 描述 ， 称 为 时 钟 频率 (clock rate)。 例 如 ， 时 钟 周期 为 250ps， 
对 应 的 时 钟 频 率 为 4GHz。 在 下 一 节 ， 我们 将 形式 化 地 定义 硬件 设计 者 的 时 钟 周期 和 计算 机 使 
用 者 所 指 的 秒 之 间 的 关系 。 


忆 ” 时钟 周期 : 也 叫 tick、clock tick 、clock period、clock 或 cycle， 为 计算 机 一 个 时 钟 周期 的 时 
间 ， 通 常 是 处 理 器 时 钟 ， 一 般 为 常数 。 
忆 “时 钟 长 度 : 每 个 时 钟 周 期 持续 的 时 间 长 度 。 


四 小 测验 

1. 假设 某 个 使 用 个 人 移动 设备 和 云 的 应 用 受 网 络 性 能 限制 。 那 么 对 于 下 列 3 种 方法 ， 哪 种 
只 改进 了 吞吐 率 ? 哪 种 同时 改进 了 响应 时 间 和 吞吐 率 ? 哪 种 都 没有 改进 ? 
a. 在 个 人 移动 设备 和 云 之 间 增 加 一 条 额外 的 网 络 信道 ， 从 而 增加 总 的 网 络 吞 吐 率 ， 并 

减少 获得 网 络 访问 的 延迟 〈 现 在 已 经 存在 2 条 网 络 信道 ) 。 

b. 改进 网 络 软件 ， 从 而 减少 网 络 通信 延迟 ， 但 并 不 增加 吞吐 率 。 
c. 增加 计算 机 的 内 存 。 

2. 计算 机 B 运行 给 定 的 应 用 需要 28 秒 ， 而 计算 机 C 的 性 能 是 计算 机 了 的 4 倍 。 请 问 计 算 
机 C 运行 同样 的 应 用 需要 多 长 时 间 ? 


1.6.3 CPU 性 能 及 其 因素 


用 户 和 设计 者 往往 以 不 同 的 尺度 看 待 性 能 。 如 果 我 们 能 掌握 这 些 不 同 尺 度 之 间 的 关系 ， 就 
能 确定 一 个 设计 的 变化 对 性 能 的 影响 。 由 于 我 们 都 关注 CPU 性 能 ， 因 而 性 能 度量 实际 上 针对 
的 是 CPU 执行 时 间 。 下 面 一 个 简单 的 公式 把 最 基本 的 尺度 (时钟 周 期 数 和 时 钟 周 期 时 间 ) 和 
CPU 时 间 联 系 起 来 : 

一 个 程序 的 CPU 执行 时 间 = 一 个 程序 的 CPU 时 钟 周期 数 x 时 钟 周期 时 间 
由 于 时 钟 频率 和 时 钟 周 期 时 间 互 为 倒数 ， 故 
一 个 程序 的 CPU 执行 时 间 = 一 个 程序 的 CPU 时 钟 周期 数 / 时 钟 频率 

这 个 公式 清楚 地 表明 ， 硬 件 设 计 者 减少 一 个 程序 的 CPU 时 钟 周期 数 ， 或 减少 时 钟 周期 时 
间 ， 就 能 改进 性 能 。 在 后 面 几 章 中 我 们 将 看 到 ， 设 计 者 经 常 要 面 对 这 些 因 素 之 间 的 权衡 。 许 多 
技术 在 减少 时 钟 周期 数 的 同时 也 会 引起 时 钟 周期 时 间 的 增加 。 


团 ] 例题 , 性 能 的 改进 

某 程序 在 一 台 时 钟 频率 为 2GHz 的 计算 机 A 上 运行 需要 10 秒 。 现 在 将 设计 一 台 计 算 机 B， 
希望 将 运行 时 间 缩 短 为 6 秒 。 计 算 机 的 设计 者 采用 的 方法 是 提高 时 钟 频率 ， 但 这 会 影响 CPU 其 
余部 分 的 设计 ， 使 计算 机 B 运行 该 程序 时 需要 相当 于 计算 机 A 的 1.2 倍 的 时 钟 周期 数 。 那 么 计 
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算 机 设计 者 应 该 将 时 钟 频率 提高 到 多 少 ? 


著 ] 答案 
我 们 首先 要 知道 在 A 上 运行 该 程序 需要 多 少时 钟 周期 数 : 
CPU 时 间 , = CPU 时 钟 周期 数 ,/ 时 钟 频率 
10 秒 = CPU 时 钟 周期 数 ,/2 x10” 周期 数 / 秒 
CPU 时 钟 周期 数 , =10 秒 x2 x10? 周期 数 / 秒 =20 x10 周期 数 
B 的 CPU 时 间 公 式 为 : 
CPU 时 间 s =1.2xCPU 时 钟 周期 数 ,/ 时 钟 频率 ， 
6 秒 =1.2x20x10 ”时钟 周 期 数 / 时 钟 频率 ， 
时 钟 频 率 ， =1.2x20 x10” 时钟 周 期 数 /6 秒 =0.2 x20 x10 时 钟 周期 数 / 秒 
=4 x10 时 钟 周期 数 / 秒 *-=4GHz 
因此 ， 要 在 6 秒 内 运行 完 该 程序 ，B 的 时 钟 频 率 必须 提高 为 A 的 2 倍 。 口 


1.6.4 指令 的 性 能 


上 述 性 能 公式 没有 涉及 程序 所 需 的 指令 数 。 然 而 ， 由 于 计算 机 是 通过 执行 指令 来 运行 程序 
的 ， 因 此 执行 时 间 一 定 依赖 于 程序 中 的 指令 数 。 一 种 考虑 执行 时 间 的 方法 是 ， 执 行 时 间 等 于 执 
行 的 指令 数 乘 以 每 条 指令 的 平均 时 间 。 所 以 ， 一 个 程序 需要 的 时 钟 周期 数 可 写 为 : 
CPU 时 钟 周期 数 = 程序 的 指令 数 x 每 条 指令 的 平均 时 钟 周期 数 
术语 CPI (clock cycle per instruction) 表示 执行 每 条 指令 所 需 的 时 钟 周 期 数 的 平均 值 。 不 
同 的 指令 需要 的 时 间 可 能 不 同 ，CPI 是 一 个 程序 全 部 指令 所 用 时 钟 周期 数 的 平均 值 。CPI 提供 
了 比较 相同 指令 集 的 不 同 实现 方式 的 方法 ， 因 为 一 个 程序 执行 的 指令 数 是 一 样 的 。 


人 CPI: 每 条 指令 的 时 钟 周期 数 ， 表 示 执 行 某 个 程序 或 者 程序 片段 时 每 条 指令 所 需 的 时 钟 周 


转 ]】 例 题 * 性 能 公式 的 使 用 
假设 我 们 有 相同 指令 集 的 两 种 不 同 实现 方式 。 计 算 机 A 的 时 钟 周期 为 250ps， 对 某 程序 的 
CPI 为 2. 0; 计算 机 B 的 时 钟 周期 为 500ps， 对 同样 程序 的 CPI 为 1. 2。 对 于 该 程序 ， 请 问 哪 台 
计算 机 执行 的 速度 更 快 ? 快 多 少 ? 
团 | 答案 
我 们 知道 ， 对 于 固定 的 程序 ， 每 台 计 算 机 执行 的 总 指令 数 是 相同 的 ,我 们 用 1 来 表示 。 首 
先 , 求 每 台 计算 机 的 CPU 时 钟 周期 数 : 
CPU 时 钟 周期 数 , =Tx2.0 
CPU 时 钟 周期 数 。=Tx1.2 
现在 ， 可 以 计算 每 台 计 算 机 的 CPU 时 间 
CPU 时 间 、= CPU 时 钟 周期 数 , x 时 钟 周期 时 间 =Tx2.0 x250ps =500 x Ips 
同 理 
CPU 时 间 。=Tx1.2 x500ps =600 x Ips 
显然 ， 计 算 机 A 更 快 。 快 多 少 由 执行 时 间 之 比 来 计算 
CPU 性 能 ,VCPU 性 能 ， = 执行 时 间 s/ 执 行 时 间 。=600 x Ips/500 x Ips =1.2 
因此 ， 对 于 该 程序 计算 机 A 是 计算 机 了 的 1.2 倍 快 。 口 


1.6.5 经 典 的 CPU 性 能 公式 


现在 我 们 可 以 用 指令 数 (instruction count) 、CPI 和 时 钟 周期 时 间 来 写 出 基本 的 性 能 公式 : 
CPU 时 间 = 指令 数 xCPIx 时 钟 周 期 时 间 
或 
CPU 时 间 = 指令 数 xCPL/ 时 钟 频率 
公式 特别 有 用 ， 因 为 它们 把 性 能 分 解 为 三 个 关键 因素 。 如 果 知 道 实现 方案 或 替代 方案 
Re 我 们 可 用 这 些 公式 来 比较 不 同 的 实现 方案 或 评估 某 个 设计 的 替代 方案 。 


2 指令 数 : 执行 菜 程 序 所 需 的 总 指令 数量 。 


著 | 例题 * 代码 段 的 比较 
一 个 编译 器 设计 者 试图 在 两 个 代码 序列 之 间 进行 选择 。 硬 件 设计 者 给 出 了 如 下 数据 : 


gn 














CGPI 1 2 3 

对 于 某 行 高 级 语言 语句 的 实现 ， 两 个 代码 序列 所 需 的 指令 数量 如 下 : 
2 1 2 
之 4 1 1 


哪个 代码 序列 执行 的 指令 数 更 多 ?哪个 执行 速度 更 快 ? 每 个 代码 序列 的 CPI 是 多 少 ? 
轩 答案 
代码 序列 1 共 执 行 2+1 +2 =5 条 指令 。 代 码 序 列 2 共 执行 4+1+1=6 条 指令 。 所 以 ， 代 
码 序列 1 执行 的 指令 数 更 少 。 
基于 指令 数 和 CPI， 我 们 可 以 用 CPU 时 钟 周期 公式 计算 出 每 个 代码 序列 的 总 时 钟 周 期 
数 为 : 
CPU 时 钟 周期 数 = 之 (CPI, x C.) 
因此 
CPU 时 钟 周期 数 ， = (2 x1) +(1x2) +(2x3) =2+2+6 =10 周 期 
CPU 时 钟 周 期 数 ，= (4 x1)+(1x2)+(1x3) =4+2+3=9 周 期 
故 代码 序列 2 更 快 ， 尽管 它 多 执行 了 一 条 指令 。 由 于 代码 序列 2 总 时 钟 周期 数 较 少 ， 而 指令 数 
较 多 ， 因 此 它 一 定 具 有 较 小 的 CPI。CPI 的 计算 公式 为 : 
CPI = CPU 时 钟 周期 数 / 指令 数 
CPI, = CPU 时 钟 周 期 数 ,/ 指令 数 ， = 10/5 = 2 
CPL = CPU 时 钟 周期 数 ,/ 指令 数 ，= 9/6 = 1.5 0 


邯 ] 重点 图 1-15 给 出 了 计算 机 在 不 同 层次 上 的 性 能 测试 指标 及 其 测试 单位 。 通 过 这 些 指标 
的 组 合 可 以 计算 出 程序 的 执行 时 间 (单位 为 秒 ) : 
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执行 时 间 = 秒 /程序 = 指令 数 /程序 x 时 钟 周期 数 /指令 x 秒 /时 钟 周期 
永远 记 住 ， 唯 一 能 够 被 完全 可 靠 测量 的 计算 机 性 能 指标 是 时 间 。 例 如 ， 对 指令 集 减 少 
指令 数目 的 改进 可 能 降低 时 钟 周期 时 间或 提高 CPL， 从 而 抵消 了 改进 的 效果 。 类 似 地 ， 
CPI 与 执行 的 指令 类 型 相关 ， 执 行 指令 数 最 少 的 代码 其 执行 速度 未 必 是 最 快 的 。 
ST 


程序 的 CPU 执 行 时 间 程序 执行 的 执行 时 间 ， 以 秒 为 单位 














程序 执行 的 指令 数目 
指令 的 平均 执行 时 钟 周期 (CPI | 每 条 指令 的 平均 执行 的 时 钟 周期 数 
时 钟 周 期 时 间 每 个 时 钟 周期 的 长 度 ， 以 秘 为 单位 








1-15 基本 的 性 能 指标 及 其 测量 单位 


如 何 确 定性 能 公式 中 这 些 因素 的 值 呢 ? 我 们 可 以 通过 运行 程序 来 测量 CPU 的 执行 时 间 ， 
并 且 计 算 机 的 说 明 书 中 通常 介绍 了 时 钟 周期 时 间 。 难 以 测量 的 是 指令 数 和 CPI。 当 然 ， 如 果 确 
定 了 时 钟 频 率 和 CPU 执行 时 间 ， 我 们 只 需要 知道 指令 数 或 者 CPI 两 者 之 一 ， 就 可 以 依据 性 能 公 
式 计 算出 另 一 个 。 

可 以 通过 用 体系 结构 仿真 器 等 软件 工具 预 执行 程序 来 测量 出 指令 数 ， 也 可 以 用 大 多 数 处 理 
器 中 的 硬件 计数 器 来 测量 执行 的 指令 数 、 平 均 CPI 和 性 能 损失 源 等 。 由 于 指令 数量 取决 于 计算 
机 体系 结构 ， 并 不 依赖 于 计算 机 的 具体 实现 ， 因 而 我 们 可 以 在 不 知道 计算 机 全 部 实现 细节 的 情 
况 下 对 指令 数 进行 测量 。 但 是 ，CPI 与 计算 机 的 各 种 设计 细节 密切 相关 ， 包括 存储 系统 和 处 理 
器 结构 (我 们 将 在 第 4、5 章 中 看 到 ) ， 以 及 应 用 程序 中 不 同类 型 的 指令 所 占 的 比例 。 因 此 ， 
CPI 对 于 不 同 应 用 程序 是 不 同 的 ， 对 于 相同 指令 集 的 不 同 实现 方式 也 是 不 同 的 。 

上 述 例子 表明 ， 只 用 一 种 因素 (如 指令 数 ) 去 评价 性 能 是 危险 的 。 当 比较 两 台 计 算 机 时 ， 
必须 考虑 全 部 三 个 因素 ， 它 们 组 合 起 来 才能 确定 执行 时 间 。 如 果 某 个 因素 相同 〈 如 上 例 中 的 时 
钟 频 率 ) ， 则 必须 考虑 不 同 的 因素 才能 确定 性 能 的 优 劣 。 因 为 CPI 随 着 指令 组 合 (instruction 
mix) 而 变化 ， 所 以 必须 比较 指令 的 条 数 和 CPU ， 即 使 时 钟 频率 是 相同 的 。 在 本 章 最 后 的 练习 
题 中 ， 有 几 道 是 关于 计算 机 和 编译 程序 改进 后 对 时 钟 频率 、CPI 和 指令 数目 影响 的 评价 。 在 
1. 10 节 ， 我 们 将 讨论 一 种 因 没 有 全 面 考虑 各 种 因素 而 导致 的 对 性 能 的 误解 。 


全 指令 组 合 : 在 一 个 或 多 个 程序 中 ， 指 令 的 动态 使 用 频 度 的 评价 指标 。 


国 | 理解 程序 性 能 程序 的 性 能 与 算法 、 编 程 语言 、 编 译 程序 、 体 系 结构 以 及 实际 的 硬件 有 
关 。 下 表 概 括 了 这 些 成 分 是 如 何 影响 CPU 性 能 公式 中 的 各 种 因素 的 。 


硬件 或 软件 指标 影响 什么 如 何 影响 


指令 数 ， 可 能 算法 决定 源 程序 执行 指令 的 数目 ， 从 而 也 决定 了 CPU 执行 指令 的 数 
目 。 算 法 也 可 能 通过 使 用 较 快 或 较 慢 的 指令 影响 CPI。 例 如 ， 当 算法 使 
用 更 多 的 除法 运算 时 ， 将 会 导致 CPI 增 大 

编程 语言 显然 会 影响 指令 数 ， 因 为 编程 语言 中 的 语句 必须 翻译 为 指 
令 ， 从 而 决定 了 指令 数 。 编 程 语 言 也 可 影响 CPI， 例 如 ，Java 语言 充分 
支持 数据 抽象 ， 因 此 将 进行 间接 调用 ， 需 要 使 用 较 高 的 CPI 指令 

因为 编译 程序 决定 了 源 程 序 到 计算 机 指令 的 翻译 过 程 ， 所 以 编译 程序 
的 效率 既 影 响 指令 数 又 影响 CPI。 编 译 器 会 以 复杂 的 方式 影响 CPI 


指令 集体 系 结构 影响 CPU 性 能 的 所 有 3 个 方面 ， 因 为 它 影响 完成 某 功 
能 所 需 的 指令 数 、 每 条 指令 的 周期 数 以 及 处 理 器 的 时 钟 频率 
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邯 | 精 解 也 许 你 期 望 CPI 最 小 值 为 1.0。 在 第 4 章 我 们 将 看 到 ， 有 些 处 理 器 在 每 个 时 钟 周 其 
可 对 多 条 指令 取 指 并 执行 。 有 些 设计 者 用 IPC (instruction per clock cycle) 来 代替 CPI。 如 
一 个 处 理 器 每 时 钟 周期 可 执行 平均 2 条 指令 ， 则 它 的 IPC =2，CPI =0.5。 

o 吕 精 解 虽然 时 钟 周期 时 间 传 统 上 是 固定 的 ， 但 是 为 了 节省 能 量 或 暂时 提升 性 能 ， 当 今 的 计 
算 机 可 以 使 用 不 同 的 时 钟 频率 ， 因 此 我 们 需要 对 程序 使 用 平均 时 钟 频率 。 例 如 ，Intel Core 
i7 处 理 器 在 处 理 器 温度 升 高 之 前 可 以 暂时 将 时 钟 频率 提高 10% 。Intel 称 之 为 快速 模式 
(Turbo mode ) 。 


o 虽 小 测验 

某 Java 程序 在 桌面 处 理 器 上 运行 需 时 15 秒 。 一 个 新 版 本 的 Java 编译 程序 发 行 了 ， 其 编译 
产生 的 指令 数量 是 旧版 本 Java 编译 程序 的 0.6 倍 ， 不 幸 的 是 ，CPI 增加 为 原来 的 1.1 倍 。 请 问 
该 程序 在 新 版 本 的 Java 编译 程序 中 运行 速度 是 多 少 ? 从 以 下 三 个 选项 中 选 出 正确 答案 。 

a. 15 x0.6X1.1 =8.2 秒 

b. 15 x0.6xl.1=9.9 秒 

c. 15 x1. 1X0.6 =27. 5 秘 


1.7 功 耗 墙 


图 1-16 表示 30 年 间 Intel 八代 微 处 理 器 的 时 钟 频率 和 功 耗 的 增长 趋势 。 两 者 的 增长 几乎 保 
持 了 几 十 年 ， 但 近 几 年 来 突然 缓和 下 来 。 其 原因 在 于 两 者 是 密切 相关 的 ， 而 且 功 耗 已 经 到 达 了 
极限 ， 无 法 再 将 处 理 器 冷却 下 来 。 
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图 1-16 25 年 间 Intel x86 八代 微 处 理 器 的 时 钟 频率 和 功 耗 。 奔 腾 4 处 理 器 时 钟 频率 和 功 耗 提高 很 大 ,但 
是 性 能 提升 不 大 。Prescott 发 热 问题 导致 奔腾 4 处 理 器 的 生产 线 被 放弃 。Core 2 生产 线 恢复 使 用 
低 时 钟 频率 的 简单 流水 线 和 片上 多 处 理 器 。Core i5 采用 同样 的 流水 线 


虽然 功 耗 提 供 了 能 够 冷却 的 极限 ， 然 而 在 后 PC 时 代 ， 能 量 是 真正 关键 的 资源 。 对 于 个 人 
移动 设备 来 说 ， 电 池 寿 命 比 性 能 更 为 关键 。 对 于 具有 100 000 个 服务 器 的 仓储 式 计算 机 来 说 ， 
冷却 费用 非常 高 ， 因 此 设计 者 要 尽量 降低 其 功 耗 。 就 像 在 评价 性 能 时 ， 使 用 执行 时 间 比 使 用 
MIPS ( 见 1.10 节 ) 之 类 的 比率 更 加 可 信 一 样 ， 在 评价 功 耗 时 ， 使 用 能 耗 比 功 耗 更 加 合理 ， 能 
耗 的 单位 是 焦耳 / 秒 。 

占 统治 地 位 的 集成 电路 技术 是 CMOS (互补 型 金属 氧化 半导体 )， 其 主要 的 能 耗 来 源 是 动 
态 能 耗 ， 即 在 晶体 管 开关 过 程 中 产生 的 能 耗 ， 即 晶体 管 的 状态 从 0 翻转 到 1 或 从 1 翻转 到 0 消 
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耗 的 能 量 。 动 态 能 耗 取决 于 每 个 晶体 管 的 负载 电容 和 工作 电压 : 
能 耗 < 负 载 电 容 x 电压 ” 
这 个 等 式 表 示 的 是 一 个 0 一 1 一 0 或 1 一 0 一 1 的 逻辑 转换 过 程 中 消耗 的 能 量 。 一 个 晶体 管 消 
耗 的 能 量 为 : 





能 耗 x1/2 x 负载 电容 x 电压 ? 
每 个 晶体 管 需要 的 功 耗 是 一 个 翻转 需要 的 能 耗 和 开关 频率 的 乘积 : 
功 耗 e1/2 x 负载 电容 x 电压 ”x 开关 频率 

开关 频率 是 时 钟 频 率 的 函数 ， 负 载 电 容 是 连接 到 输出 上 的 晶体 管 数量 〈 称 为 扁 出 ) 和 工 
艺 的 函数 ， 该 函数 决定 了 导线 和 晶体 管 的 电容 。 

思考 一 下 图 1-16 的 趋势 ， 为 什么 时 钟 频率 增长 为 1 000 倍 ， 而 功 耗 只 增长 为 30 倍 呢 ? 因 
为 能 耗 和 功 耗 是 电压 平方 的 函数 ， 能 够 通过 降低 电压 来 大 幅 减少 ， 每 次 工艺 更 新 换代 时 都 会 这 
样 做 。 一 般 来 说 ， 每 代 的 电压 降低 大 约 15% 。20 多 年 来 ， 电压 从 5V 降 到 了 1V。 这 就 是 功 耗 
只 增长 30 倍 的 原因 所 在 。 


苇 | 例题 相对 功 耗 

假设 我 们 需要 开发 一 种 新 处 理 器 ， 其 负载 电容 只 有 旧 处 理 器 的 85% 。 再 假设 其 电压 可 以 
调节 ， 与 旧 处 理 器 相 比 电压 降低 了 15% ， 进 而 导致 频率 也 降低 了 15% ， 问 这 对 新 处 理 器 的 动 
态 功 耗 有 何 影响 ? 


了 i 答案 
Di 。 (电容 负载 : 《开关 频率 x0.85) 
Pe 
因此 功 耗 比 为 
0. 85° =0. 52 
新 处 理 器 的 功 耗 大 约 为 旧 处 理 器 的 一 半 。 0 


目前 的 问题 是 如 果 电 压 继续 下 降 会 使 晶体 管 泄漏 电流 过 大 ， 就 像 水 龙头 不 能 被 完全 关闭 一 
样 。 目 前 40% 的 功 耗 是 由 于 泄漏 造成 的 ， 如 果 晶 体 管 的 泄漏 电流 再 大 ， 情 况 将 会 变 得 无 法 收拾 。 

为 了 解决 功 耗 问题 ， 设 计 者 连接 大 设备 以 增加 冷却 ， 而 且 将 芯片 中 的 一 些 在 给 定时 钟 周期 内 
暂时 不 用 的 部 分 关闭 。 尽 管 有 很 多 更 加 昂贵 的 方式 来 冷却 芯片 ， 但 继续 提高 芯片 的 功 耗 (比如 到 
300 瓦 ) 对 个 人 计算 机 甚至 服务 器 来 说 成 本 太 高 了 ， 对 个 人 移动 设备 就 更 不 用 说 了 。 

由 于 计算 机 设计 者 遇 到 了 功 耗 墙 问题 ， 因 此 他 们 需要 开辟 新 的 路 径 ， 选 择 不 同 于 已 经 用 了 30 
多 年 的 方法 继续 前 进 。 


团 | 精 解 虽然 动态 能 耗 是 CMOS 能 耗 的 主要 来 源 ， 但 静态 能 耗 也 是 存在 的 ， 因 为 即使 在 晶体 管 
关闭 的 情况 下 ， 还 是 有 泄漏 电流 存在 。 在 服务 器 中 ， 典 型 的 电流 泄 汕 占 40% 的 能 耗 。 因 此 ， 
增加 晶体 管 的 数目 ， 就 会 增加 漏电 功 耗 ， 即 使 这 些 晶体 管 总 是 关闭 的 。 人 们 采用 各 种 各 样 的 
设计 和 工艺 创新 来 控制 电流 泄漏 ， 但 还 是 难以 进一步 降低 电压 。 

邯 | 精 解 ” 功 耗 成 为 集成 电路 设计 的 一 个 挑战 有 两 个 原因 。 首 先 ， 电 源 必 须 由 外 部 输入 并 且 分 布 
到 芯片 的 各 个 角落 。 现 代 微 处 理 器 通常 使 用 几 百 个 管 角 作为 电源 和 地 ! 同样 ， 多 层次 芯片 互 
联 仅仅 为 了 解决 臣 片 的 电源 和 地 的 分 布 比例 问题 。 其 次 ， 功 耗 作为 热量 形式 散发 ， 因 此 必须 
进行 散热 处 理 。 服 务 器 芯片 的 功 耗 可 高 达 100 瓦 以 上 ， 因 此 芯片 及 外 转 系 统 的 散热 是 仓储 规 
模 计算 机 的 主要 开销 ( 见 第 6 章 )。 


1.8 沧海 巨变 : 从 单 处 理 器 向 多 处 理 器 转变 


违 今 为 止 ， 很 多 软件 很 僚 独 鸣 者 所 写 的 音乐 ; 使 用 当代 的 芯片 ， 我 们 对 于 编写 二 重 
晶 、 四 重 晶 以 及 小 型 合 责 的 经 验 很 少 ， 但 是 为 大 型 交响 东 或 者 合唱 谱 曲 则 是 一 个 不 同 的 
批 战 。 
— Brian Hayes, 《 Computing in a Parallef Universe} ,2007 


功 耗 的 极限 迫使 微 处 理 器 的 设计 产生 了 巨变 。 图 1-17 给 出 了 桌面 微 处 理 器 的 程序 响应 时 
间 的 发 展 。 从 2002 年 起 ， 其 每 年 的 增长 速率 从 1.5 下 降 到 1.2。 
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图 1-17 自 20 世纪 80 年 代 中 期 以 来 处 理 器 性 能 的 发 展 。 本 图 描绘 了 和 VAX 11/780 相 比 ， 采 用 SPECint 
测试 程序 得 到 的 性 能 数据 〈 见 1. 10 节 ) 。 在 20 世纪 80 年 代 中 期 以 前 ， 性 能 的 增长 主要 靠 技术 
驱动 ， 平 均 每 年 增长 25% 。 在 这 个 阶段 之 后 ， 增 长 速度 达到 52% ， 这 归功 于 体系 结构 和 组 织 方 
式 的 创新 。 从 20 世纪 80 年 代 中 期 开始 ， 性 能 每 年 大 约 提 高 52% ， 如 果 按 照 原先 的 25% 的 增长 
率 计算 ， 则 到 2002 年 的 性 能 只 有 实际 的 1/7。 从 2002 年 开始 ， 受 到 功 耗 、 指 令 级 并 行程 度 和 
存储 器 长 延迟 时 间 的 限制 ， 单 核 处 理 器 的 性 能 增长 放 缓 ， 大 约 每 年 22% 


在 2006 年 ， 所 有 桌面 和 服务 器 公司 都 在 单 片 微 处 理 器 中 加 入 了 多 个 处 理 器 ， 以 求 更 大 的 
吞吐 率 ， 而 不 再 继续 追求 降低 单个 程序 运行 在 单个 处 理 器 上 的 响应 时 间 。 为 了 减少 processor 和 
microprocessor ( 微 处 理 器 ) 这 两 个 词语 之 间 的 混淆 ， 一 些 公 司 将 processor 作为 “cores” 的 代 
称 ， 这 样 microprocessor 就 是 多 核 处 理 器 了 。 因 此 ， 一 个 “四 核 ” 微 处 理 器 是 一 个 包含 了 4 个 
processor 或 者 4 个 core 的 芯片 。 

在 过 去 ， 程 序 员 可 以 依赖 于 硬件 、 体 系 结构 和 编译 程序 的 创新 ， 无 需 修改 一 行 代码 ， 程 序 
的 性 能 每 18 个 月 翻 一 番 。 而 今天 ， 程 序 员 要 想 显 著 改 进 响应 时 间 ， 必 须 重 写 他 们 的 程序 以 充 
分 利用 多 处 理 器 的 优势 。 而 且 ， 随 着 核 的 数目 不 断 加 倍 ， 程 序 员 也 必须 不 断 改进 他 们 的 代码 ， 
以 便 在 新 微 处 理 器 上 获得 显著 的 性 能 提升 。 

为 了 强调 软件 和 硬件 系统 的 协同 工作 ， 我 们 在 本 书 用 “硬件 /软件 接口 ”的 概念 来 进行 描 
述 ， 并 对 这 一 接口 概括 一 些 重要 的 观点 ， 下 面 是 本 书 中 的 第 一 个 。 


车】 硬件 /软件 接口 “并行 性 对 计算 性 能 一 直 十 分 重要 ， 但 它 往往 是 隐藏 的 。 第 4 章 将 说 明 流水 线 ， 
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它 是 一 种 漂亮 的 技术 ， 通 过 指令 重 壹 执行 使 程序 运行 得 更 快 。 这 是 指令 级 并 行 性 的 一 个 例子 。 
在 抽取 了 硬件 的 并 行 本 质 之 后 ， 程 序 员 或 编译 程序 可 认为 在 硬件 中 指令 是 串 行 执行 的 。 

迫使 程序 员 意识 到 硬件 的 并 行 性 ， 并 显 式 地 按 并 行 方式 重 写 其 程序 ， 曾 经 是 计算 机 体 
系 结构 的 “第 三 抱怨 " ， 以 致 很 多 采用 此 种 方式 进行 革新 的 公司 都 失败 了 ( 见 6.15 节 )。 
从 历史 发 展 的 角度 来 观察 ， 整 个 开行 业已 经 把 它 放 到 了 未 来 的 发 展 方向 上 ， 程 序 员 最 终 
将 成 功 地 跃进 到 显 式 并 行 编程 。 


为 什么 程序 员 编写 显 式 并 行程 序 如 此 困难 呢 ? 第 一 个 原因 是 并 行 编程 以 提高 性 能 为 目的 ， 
必然 增加 编程 的 难度 。 不 仅 程 序 必须 要 正确 ， 能 够 解决 重要 问题 ， 而 且 运 行 速 度 要 快 ， 还 需要 
为 用 户 或 其 他 程序 提供 接口 以 便 使 用 ， 和 否则 编写 一 个 串 行程 序 就 足够 了 。 
第 二 个 原因 是 为 了 发 挥 并 行 硬件 的 速度 ， 程 序 员 必 须 将 应 用 划分 为 每 个 核 上 有 大 致 相同 数 
量 的 任务 ， 并 同时 完成 。 还 要 尽 可 能 减 小 调度 的 开销 ， 以 不 至 于 浪费 并 行 性 能 。 
作 一 个 比喻 ， 现 在 有 一 个 写 新 闻 故 事 的 任务 ， 如 果 由 8 名 记者 共同 来 完成 ， 能 否 提高 8 倍 
的 写作 速度 呢 ? 为 了 实现 这 一 目标 ， 这 个 新 闻 故 事 需要 进行 划分 ， 让 每 个 记者 都 有 事 可 做 。 假 
如 某 名 记者 分 到 的 任务 比 其 他 7 名 记者 加 起 来 的 任务 还 要 多 ， 那 用 8 名 记者 的 好 处 就 不 存在 
了 。 因 此 ， 任 务 分 配 必须 平衡 才能 得 到 理想 的 加 速 。 另 一 个 存在 的 危险 是 记者 要 花费 时 间 互 相 
交流 才能 完成 所 分 配 的 任务 。 如 果 故 事 的 一 部 分 ， 例 如 结论 ， 在 所 有 其 他 部 分 完成 之 前 不 能 纺 
写 ， 则 缩短 故事 编写 时 间 的 计划 将 会 失败 。 所 以 ， 必 须 尽 量 减 少 通信 和 同步 的 开销 。 对 于 上 述 
比喻 和 并 行 编程 来 说 ， 挑 战 包括 : 调度 、 负 载 平 衡 、 通 信 以 及 同步 等 开销 。 你 也 许 会 想到 ， 当 
更 多 的 记者 来 写 一 个 故事 时 挑战 会 更 大 ， 当 核 的 数目 更 多 时 ， 并 行 编程 的 挑战 将 更 大 。 
为 了 反映 业界 的 这 个 沧海 巨变 ， 后 面 的 4 章 里 每 章 都 会 至 少 有 一 节 介绍 有 关 并 行 性 革命 的 
内 容 : 
。 第 2 章 ，2.11 节 。 通 常 独立 的 并 行 任务 需要 一 次 次 地 协调 ， 以 便 通 报 它 们 何 时 完成 了 
所 分 配 的 任务 。 本 章 将 解释 多 核 处 理 器 任务 同步 所 使 用 的 指令 。 

。 第 3 章 , 3.6 节 。 并 行 性 的 最 简单 方式 是 将 计算 设备 单元 并 行 工作 ， 例 如 两 个 向 量 相 
乘 。 摩 尔 定律 提供 了 位 宽 更 大 且 能 同时 处 理 多 个 操作 数 的 算术 单元 ， 子 字 并 行 就 是 利 
用 这 种 资源 的 并 行 性 的 。 

。 第 4 章 , 4.10 节 。 尽 管 明 确 地 知道 并 行 编程 的 困难 ， 但 在 20 世纪 90 年 代 ， 人 们 依然 
付出 了 巨大 的 努力 和 投资 用 于 从 流水 线 开 始 研究 硬件 和 编译 程序 的 并 行 性 。 本 章 描述 
了 这 些 技术 ,包括 取 指 与 多 指令 同时 执行 和 通过 预测 的 方式 推测 决策 结果 、 指 令 执 
行 等 。 

。 第 5 章 ，5. 10 节 。 降 低 通信 开销 的 一 个 方法 是 让 所 有 处 理 器 使 用 同一 个 地 址 空间 ， 任 何 处 理 
器 可 以 读 写 任何 数据 。 今 天 的 计算 机 都 采用 cache 技术 ， 即 在 处 理 器 附近 更 快 的 存储 器 中 ， 
保持 数据 的 一 个 临时 复 本 。 可 以 想象 ， 如 果 多 个 处 理 器 访问 cache 中 的 共享 数据 不 一 致 的 
话 ， 并 行 编程 将 尤为 困难 。 本 章 将 介绍 保持 所 有 cache 数据 一 致 性 的 机 制 。 

。 第 5 章 ,5.11 节 。 本 节 介 绍 如 何 使 用 许多 磁盘 共同 构成 一 个 能 够 提供 更 高 吞吐 率 的 系统 ， 这 
就 是 廉价 元 余 磁 盘 阵 列 (RAID) 的 灵感 。RAID 流行 的 真正 原因 是 它 能 够 通过 采用 适当 数 
量 的 元 余 磁 盘 提 供 更 高 的 可 靠 性 。 本 节 将 介绍 在 不 同 RAID 级 别 的 性 能 、 成 本 和 可 靠 性 。 

除了 这 些 章节 之 外 ， 还 有 一 整 章 介 绍 并 行 编程 。 第 6 章 详细 叙述 了 并 行 编程 的 挑战 性 ， 提 
出 了 两 种 方法 来 解决 共享 编 址 通信 和 显 式 消息 传输 ， 介 绍 了 一 种 易于 编程 的 并 行 性 模型 ， 讨 论 
了 使 用 基准 测试 程序 对 并 行 处 理 器 进行 评测 的 困难 ， 为 多 核 微 处 理 器 引入 了 一 个 新 的 简单 性 能 
模型 ， 最 后 描述 和 评价 了 4 种 使 用 该 种 模型 的 多 核 微 处 理 器 。 

如 上 所 述 ,第 3 ~6 章 使 用 矩阵 向 量 相 乘 作为 采用 并 行 性 提高 性 能 的 例子 。 
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附录 C 介绍 了 一 种 在 桌面 计算 机 中 越 来 越 普及 的 图 形 处 理 器 (Graphics Processing Unit， 
GPU)。 它 是 为 加 速 图 像 处 理 而 发 明 的 。 得 益 于 高 度 的 并 行 性 ，GPU 表现 出 了 优越 的 性 能 ， 并 
已 发 展 为 完善 的 编程 平台 。 

附录 C 介绍 了 NVIDIA GPU 及 其 并 行 编程 环境 。 


1.9 实例 : Intel Core i7 基准 


我 起， 就 依 书 一 样 ,，“ 计 算 机 ”是 一 个 全 世界 广泛 这 用 的 概 合 。 但 我 没有 想到 它 
会 发 展 得 如此 迅速 ， 因 为 我 完全 没有 预料 到 我 们 在 一 块 臣 片 上 可 以 得 到 僚 我 们 最 终 得 
到 的 如 此 多 的 部 件 。 晶 体 管 的 进步 完全 出 手 我 们 的 预料 。 它 比 我 们 预想 的 发 展 要 快 。 

一 一 7 Pregper Eckert，ENIAC 的 创建 者 之 一 ，1991 


本 书 的 每 一 章 都 有 “实例 ”一 节 ， 它 将 本 书 中 的 概念 与 我 们 日 常 使 用 的 计算 机 联系 起 来 ， 
这 些小 节 涵 盖 了 现代 计算 机 中 使 用 的 技术 。 下 面 是 本 书 中 的 第 一 个 “实例 ”小 节 ， 我 们 将 以 
Intel Core 这 为 例 ， 说 明 如 何 制造 集成 电路 ， 以 及 如 何 测 量 性 能 和 功 耗 。 


1.9.1 SPEC CPU 基准 测试 程序 


用 户 日 复 一 日 使 用 的 程序 是 用 于 评价 新 型 计算 机 最 完美 的 程序 。 所 运行 的 一 组 程序 集 构成 
了 工作 负载 (workload) 。 要 评价 两 台 计算 机 系统 ， 只 需 简 单 地 比较 工作 负载 在 两 台 计算 机 上 
的 执行 时 间 。 然 而 大 多 数 用 户 并 不 这 样 做 ， 他 们 通过 其 他 方法 测量 计算 机 的 性 能 ， 希 望 这 些 方 
法 能 够 反映 计算 机 执行 用 户 工作 负载 的 情况 。 最 常用 的 测量 方法 是 使 用 一 组 专门 用 于 测量 性 能 
的 基准 测试 程序 (benchmark) 。 这 些 测试 程序 形成 负载 ， 用 户 期 望 预测 实际 负载 的 性 能 。 我 们 
在 前 面 提 到 ， 要 加 速 大 概率 事件 的 执行 ， 必 须 先 准确 地 知道 哪些 是 大 概率 事件 ， 因 此 基准 测试 
程序 在 计算 机 系统 结构 中 具有 非常 重要 的 作用 。 


人 工作 负载 : 运行 在 计算 机 上 的 一 组 程序 ， 可 以 直接 使 用 用 户 的 一 组 实际 应 用 程序 ， 也 可 以 
从 实际 程序 中 构建 。 一 个 典型 的 工作 负载 必须 指明 程序 和 相应 的 频率 。 
人 ”基准 测试 程序 : 用 于 比较 计算 机 性 能 的 程序 。 


SPEC (system performance evaluation cooperative) 是 由 许多 计算 机 销售 商 共 同 出 资 赞 助 并 支 
持 的 合作 组 织 ， 目 的 是 为 现代 计算 机 系统 建立 基准 测试 程序 集 。1989 年 ，SPEC 建立 了 重点 面 
向 处 理 器 性 能 的 基准 程序 集 (现在 称 为 SPEC89 ) 。 历 经 5 代 发 展 ， 目 前 最 新 的 是 SPEC CPU 
2006， 它 包括 12 个 整数 基准 程序 集 (CINT 2006) 和 17 个 浮 点 基准 程序 集 (CFP 2006) 。CINT 
2006 包括 C 编译 程序 、 量 子 计 算 机 仿真 、 下 象棋 程序 等 ，CFP 2006 包括 有 限 元 模型 结构 化 网 
格 法 、 分 子 动力 学 质点 法 、 流 体 动力 学 稀 玻 线性 代数 法 等 。 

图 1-18 列举 了 SPEC 整数 基准 程序 及 其 在 Intel Core i7 上 的 执行 时 间 、 指 令 数 、CPI 和 时 钟 
周期 时 间 等 组 成 的 SPEC 分 值 。 注 意 ，CPI 的 最 大 值 和 最 小 值 相 差 达到 5 倍 。 

为 了 简化 测试 结果 ，SPEC 决定 使 用 单一 的 数字 来 归纳 所 有 12 种 整数 基准 程序 。 具 体 方法 
是 将 被 测 计算 机 的 执行 时 间 标 准 化 ， 即 将 被 测 计算 机 的 执行 时 间 除 以 一 个 参考 处 理 器 的 执行 时 
间 ， 结 果 称 为 SPECratio。SPECratio 值 越 大 ， 表 示 性 能 越 快 (因为 SPECratio 是 执行 时 间 的 倒 
数 ) 。CINT2006 或 CFP2006 的 综合 测试 结果 是 取 SPECratio 的 几何 平均 值 。 


著 ] 精 解 在 使 用 SPECratio 比较 两 台 计算 机 时 采用 的 是 几何 平均 值 ， 这 样 可 以 使 得 无 论 采用 
台 计算 机 进行 标准 化 都 可 得 到 同样 的 相对 值 。 如 果 采 用 的 是 算术 平均 值 ， 结 果 会 随 选用 
的 参考 计算 机 而 变 。 
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时 钟 周期 时 间 | 执行 时 间 | 参考 时 间 | 。 ,、 
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图 1-18 SPECINTC2006 基准 程序 在 2. 66GHz 的 Intel Core i7 920 上 的 运行 结果 。 按 照 经 典 的 CPU 性 能 公式 
一 节 ( 原 书 第 36 页 ) 的 等 式 ， 执行 时 间 是 本 表 的 三 个 因素 的 乘积 : 以 亿 为 单位 的 指令 数 、 每 条 
指令 的 时 钟 数 (CPI) 以 及 纳 秒 级 的 时 钟 周期 时 间 。SPECratio 仅仅 是 参考 时 间 ， 由 SPEC 提供 ， 
被 所 测量 的 执行 时 间 相 除 。SPECINTC2006 所 引用 的 单个 数目 是 SPECratio 的 几何 平均 数 


几何 平均 值 的 公式 是 




















# n 


TT 执行 时 间 比 ， 


其 中 ， 执 行 时 间 比 , 是 总 共 n 个 工作 负载 中 第 ; 个 程序 的 执行 时 间 按 参照 计算 机 进行 标准 化 的 
结果 ， 并 且 


[J]ai; 表示 a x a, x… xa, 
i=1 


1.9.2 SPEC 功 耗 基准 测试 程序 


由 于 能 耗 和 功 耗 日 益 重 要 ，SPEC 增加 了 一 组 用 于 评估 功 耗 的 基准 测试 程序 ， 它 可 以 报告 
一 段 时 间 内 服务 器 在 不 同 负载 水 平 下 〈 以 10% 的 比例 递增 ) 的 功 耗 。 图 1- 19 给 出 了 在 基于 
Intel Nehalem 处 理 器 的 服务 器 上 的 测试 结果 ， 与 前 面 类 似 。 

性 能 | 平均 功 耗 


目标 负载 人 






{Ssj_ops) (瓦特 ) 
100% 865 618 













60% 521 391 



















345 919 
262 071 
176 061 


86 784 
0 0 
4787166 | 1922 


Zssj_ops / Zpower = 2 490 


图 1-19 SPECpower_ssj2008 在 服务 器 上 的 运行 结果 。 服 务 器 的 具体 配置 为 双 插 权 2. 6GHz Intel Xeon 
X5650 处 理 器 ，16GB DRAM，100GB 固态 硬盘 
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SPECpower 最 早 来 自 于 面向 Java 商业 应 用 的 SPEC 基准 程序 (SPECJBB2005 ) ， 它 主要 测试 
处 理 器 、cache、 主 存 以 及 Java 虚拟 机 、 编 译 器 、 无 用 单元 收集 器 、 操 作 系 统 片段 。 性 能 采用 
吞吐 率 来 测量 ， 单 位 是 每 秒 完成 的 操作 次 数 。 还 是 为 了 简化 结果 ，SPEC 采用 单个 的 数字 来 进 
行 归纳 ， 称 为 “overall ssj_ops per watt”， 其 计算 公式 是 : 


overall ssj _ops per watt = 人 > ssj_ops; )/ ( >» power, ] 
式 中 ，ssj_ops; 为 工作 负载 在 每 10% 增 量 处 的 性 能 ，power; 是 对 应 的 功 耗 。 


1. 10” 雇 误 与 陷阱 


科学 一 定 开始 于 和 神话 和 对 和 神话 的 批判 。 
Sir KU Popper, 《The Philosophy of Science》 ,1957 


本 书 中 每 一 章 都 会 有 “ 廖 误 与 陷阱 ”一 节 ， 其 目的 是 说 明 我 们 在 实际 中 经 常 遇 到 的 误解 ， 
我 们 称 之 为 雇 误 。 当 讨论 雇 误 时 ， 我 们 会 举 出 一 个 反例 。 我 们 也 讨论 陷阱 ， 即 那些 容易 犯 的 错 
误 。 通 常 陷阱 是 指 一般 原 理 只 在 有 限 的 上 下 文中 才 是 真 的 。 本 节 旨 在 帮助 你 在 设计 或 使 用 计算 
机 时 避免 犯 同样 的 错误 。 价 格 / 性 能 廖 误 和 陷阱 使 许多 计算 机 架构 师 掉 人 圈套 ， 包 括 我 们 下 面 
开始 介绍 的 本 书 的 第 一 个 陷阱 ， 虽 然 它 曾 迷惑 了 许多 设计 者 ， 却 揭示 了 计算 机 设计 中 的 一 个 重 
要 关系 。 

陷阱 : 在 改进 计算 机 的 某 个 方面 时 期 望 总 性 能 的 提高 与 改进 大 小 成 正比 。 

加 速 大 概率 事件 的 伟大 思想 导致 的 令 人 泄气 的 结果 困扰 着 软件 和 硬件 设计 人 员 。 它 提醒 我 
们 一 个 事件 需要 的 时 间 影 响 着 改进 的 机 会 。 

用 一 个 简单 的 例子 就 可 以 很 好 地 说 明 。 假 设 一 个 程序 在 一 台 计算 机 上 运行 需要 100 秒 ， 其 
中 80 秒 的 时 间 用 于 乘法 操作 。 如 果 要 把 该 程序 的 运行 速度 提高 到 5 倍 ， 乘 法 操作 的 速度 应 该 
改进 多 少 ? 

改进 以 后 的 程序 执行 时 间 可 用 下 面 的 Amdahl 定律 计算 : 

改进 后 的 执行 时 间 = 受 改进 影响 的 执行 时 间 / 改 进 量 + 不 受 影响 的 执行 时 间 
代入 本 例 的 数据 进行 计算 : 
改进 后 的 执行 时 间 =80/n+ (100 -80) 
由 于 要 求 快 至 5 倍 ， 新 的 执行 时 间 应 该 是 20: 
20 =80/n +20 
0 =80/n 





2 Amdahl 定律 : 阐述 了 “对 于 特定 改进 的 性 能 提升 可 能 由 所 使 用 的 改进 特征 的 数量 所 限制 
的 规则 。 它 是 “收益 递减 定律 ”的 量化 版 本 。 


可 见 ， 如 果 乘 法 运算 占 总 负载 的 80% ， 则 无 论 怎样 改进 乘法 ， 也 无 法 达到 性 能 提高 至 5 信 
的 结果 。 特 定 改 进 的 性 能 提升 由 所 使 用 的 改进 特征 的 数量 所 限制 。 这 个 概念 也 产生 了 日 常生 活 
中 我 们 称 为 “收益 递减 ”的 定律 。 

当 我 们 知道 一 些 函 数 所 消耗 的 时 间 及 其 潜在 的 加 速 时 ， 我 们 就 可 以 使 用 Amdahl 定律 预测 
性 能 的 提升 。 将 Amdahl 定律 与 CPU 性 能 公式 结合 ， 是 一 种 很 方便 的 性 能 评价 工具 。 读 者 可 以 
在 本 章 练习 中 进一步 体会 。 
Amdahl 定律 还 应 用 于 并 行 处 理 器 数量 的 实际 限制 中 ， 我 们 将 在 第 6 章 中 的 “谬误 与 陷阱 ” 
中 介绍 。 . 

廖 误 : 利用 率 低 的 计算 机 功 耗 低 。 


[48 | 


[49 | 





[50 | 
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服务 器 的 工作 负载 是 变化 的 ， 所 以 在 低 利用 率 的 情况 下 功率 很 重要 。 例 如 ，Google 仓储 式 
计算 机 中 CPU 利用 率 大 多 数 时 间 在 10% ~50% 之 间 ， 只 有 不 到 1% 的 时 间 达 到 100% 。 即 使 花 
费 5 年 时 间 来 研究 如 何 很 好 地 运行 SPECpower 基准 测试 程 试 ， 在 2012 年 ， 根 据 最 好 的 结果 配 
置 的 计算 机 中 ， 只 有 10% 的 工作 负载 能 够 消耗 173 的 峰值 功 耗 。 在 实际 工作 中 的 系统 由 于 没有 
针对 SPECpower 进行 配置 ， 因 此 其 结果 将 会 更 加 糟糕 。 

由 于 服务 器 的 工作 负载 差异 大 且 消 耗 了 峰值 功 耗 的 很 大 比例 ，Luiz Barroso 和 Urs Holzle 提 
出 需要 对 硬件 重新 进行 设计 ， 已 达到 “ 按 能 量 比例 计算 ”。 这 就 是 说 ， 在 未 来 的 服务 器 中 ， 
10% 的 工作 负载 使 用 10% 的 峰值 功 耗 ， 这 将 减少 数据 中 心 的 电费 和 二 氧化 碳 的 排放 。 

廖 误 : 面向 性 能 的 设计 和 面向 能 量 效率 的 设计 具有 不 相关 的 目标 。 

由 于 能 耗 是 功 耗 和 时 间 的 乘积 ， 在 通常 情况 下 ， 对 于 软 硬 件 的 优化 而 言 ， 即 使 在 优化 的 部 
分 起 作用 时 能 耗 可 能 高 了 一 些 , 但 是 这 些 优化 缩短 了 系统 运行 时 间 ， 因 此 整体 上 还 是 节约 了 能 
量 。 一 个 重要 的 原因 是 当 一 个 程序 运行 时 ， 计 算 机 的 其 他 部 分 仍 在 消耗 能 量 ， 因 此 ， 即 使 优化 
的 部 分 多 消耗 了 能 量 ， 运 行 时 间 的 减少 也 可 以 减少 整个 系统 的 能 耗 。 

陷阱 ， 用 性 能 公式 的 一 个 子 集 去 度量 性 能 。 

我 们 早 就 指出 了 一 种 廖 误 : 简单 地 只 用 时 钟 频率 、 指 令 数 和 CPI 之 一 去 预测 性 能 。 另 一 种 常 
犯 的 错误 是 只 用 三 种 因素 之 二 去 比较 性 能 。 虽 然 这 样 做 在 有 些 条 件 下 可 能 正确 ， 但 这 种 方法 容易 
误 用 。 实 际 上 ， 几 乎 所 有 取代 用 时 间 去 度量 性 能 的 方法 都 会 导致 起 曲 的 结果 或 错误 的 解释 。 

有 一 种 用 MIPS ( million instructions per second， 每 秒 百 万 条 指令 ) 取代 时 间 以 度量 性 能 的 
方法 。 对 于 一 个 给 定 的 程序 ，MIPS 表示 为 : 

MIPS = 指令 数 / (执行 时 间 x10 ) 

MIPS 是 指令 执行 的 速率 ， 它 规定 了 性 能 与 执行 时 间 成 反比 ， 越 快 的 计算 机 具有 越 高 的 

MIPS 值 。 从 表面 看 ，MIPS 既 容易 理解 ， 又 符合 人 的 直觉 。 


”MIPS: 基于 百 万 条 指令 的 程序 执行 速度 的 一 种 测量 。 指 令 条 数 除 以 执行 时 间 与 10 之 积 就 
得 到 了 MIPS。 


其 实 ， 用 MIPS 作为 度量 性 能 的 指标 存在 三 个 问题 。 首 先 ，MIPS 规定 了 指令 执行 的 速率 ， 
但 没有 考虑 指令 的 能 力 。 我 们 没有 办 法 用 MIPS 比较 不 同 指令 集 的 计算 机 ， 因 为 指令 数 肯定 是 
不 同 的 。 其 次 ， 在 同一 计算 机 上 ， 不 同 的 程序 会 有 不 同 的 MIPS， 因 而 一 台 计 算 机 不 会 只 有 一 
个 MIPS 值 。 例 如 ， 将 执行 时 间 用 MIPS、CPI、 时 钟 频 率 代 入 之 后 可 得 : 

MIPS = 指令 数 / (指令 数 xCPI/ 时 钟 频率 x10") = 时 钟 频率 / (CPI x10°) 

回顾 一 下 ， 图 1-18 显示 了 SPEC2006 在 Intel Core i 上 的 CPI 最 大 值 和 最 小 值 是 相差 5 倍 
的 ，MIPS 也 是 如 此 。 最 后 一 点 ， 也 是 最 重要 的 一 点 ， 如 果 一 个 新 程序 执行 的 指令 数 更 多 ， 但 
每 条 指令 的 执行 速度 更 快 ， 则 MIPS 的 变化 是 与 性 能 无 关 的 。 





团 】 小 测验 
某 程序 在 两 台 计 算 机 上 的 性 能 测量 结果 为 : 
指令 数 100 亿 次 80 亿 次 
时 钟 频 率 4GHz 4GHz 
CPI 1.0 | 





a. 哪 台 计 算 机 的 MIPS 值 更 高 ? 
b. 哪 台 计算 机 更 快 ? 
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1. 11 本章 小 结 


那里 …… ENIAC 配备 有 18 000 个 真空 管 ， 重量 达 30 吨 ， 未 来 的 计算 机 具有 有 1000 
个 真空 管 ， 可 能 仪 仪 有 1.5 吨 重 。 
一 一 《Copur Mechanics) ,1949. 3 


虽然 很 难 准 确 预 测 未 来 计算 机 的 成 本 与 性 能 将 发 展 到 怎样 的 水 平 ， 但 可 以 确定 的 是 一 定 会 
比 现在 的 计算 机 更 好 。 计 算 机 性 能 水 平 的 提高 是 永 无 止境 的 ， 计 算 机 设计 者 和 程序 员 必 须 理 解 
更 广泛 的 问题 。 
硬件 和 软件 设计 者 都 采用 分 层 的 方法 构建 计算 机 系统 ， 每 个 下 层 都 对 其 上 层 隐 藏 本 层 的 细 
节 。 抽 象 原理 是 理解 当今 计算 机 系统 的 基础 ， 但 这 并 不 意味 着 设计 者 只 要 懂得 抽象 原理 就 足够 
了 。 也 许 最 重要 的 抽象 层次 是 硬件 和 底层 软件 之 间 的 接口 ， 称 为 指令 集体 系 结构 。 将 指令 集体 
系 结构 作为 一 个 常量 可 以 使 其 不 同 的 实现 方法 (价格 和 性 能 可 能 不 同 ) 能 够 运行 同一 软件 。 
这 种 方法 产生 的 一 个 副 效 应 是 ， 要 预先 排除 可 能 需要 接口 发 生变 化 的 那些 革新 结构 。 
有 一 个 可 靠 的 测定 性 能 的 方法 ， 即 用 实际 程序 的 执行 时 间作 为 尺度 。 该 执行 时 间 与 我 们 能 
够 通过 下 面 公式 测量 到 的 其 他 重要 指标 相关 : 
秒 数 _ 指令 数 、 时钟 周 期 数秒 数 
程序 。 程序 外 令 数 时 钟 周期 数 
本 书 中 我 们 将 多 次 使 用 这 一 公式 及 其 组 成 因子 。 必 须 明确 的 是 ， 任 何 一 个 独立 的 因子 都 不 
能 确定 性 能 ， 只 有 三 个 因子 的 乘积 ( 即 执行 时 间 ) 才 是 可 靠 的 性 能 度量 标准 。 


车 | 重点 执行 时 间 是 唯一 有 效 且 不 可 推翻 的 性 能 度量 方法 。 人 们 曾经 提出 许多 其 他 度量 方 
法 ， 但 均 以 失败 告终 。 有 些 从 一 开始 就 没有 反映 执行 时 间 ， 因 而 是 无 效 的 ; 还 有 一 些 只 能 
在 有 限 条 件 下 有 效 ， 超 出 了 限制 条 件 则 失效 ， 或 是 没有 清晰 地 说 明 有 效 性 的 限制 条 件 。 


现代 处 理 器 的 关键 硬件 技术 是 硅 。 与 理解 集成 电路 技术 同样 重要 的 是 理解 我 们 所 期 望 的 摩 
尔 定律 中 描述 的 技术 进步 速率 。 在 硅 技术 加 快 硬件 进步 的 同时 ， 计 算 机 组 织 的 新 思想 也 改进 了 
产品 的 性 价 比 。 其 中 有 两 个 重要 的 新 思想 : 第 一 ， 在 程序 中 开发 并 行 性 ， 目 前 的 典型 方法 是 借 
助 多 处 理 器 ; 第 二 ， 开 发 存储 器 层次 结构 的 访问 局 部 性 ， 目 前 的 典型 方法 是 通过 cache。 

能 量 效率 已 经 取代 芯片 面积 ， 成 为 微 处 理 器 设计 中 最 重要 的 资源 。 保 存 功 耗 并 且 改 进 性 能 
的 需求 已 经 迫使 硬件 工业 向 多 核 微 处 理 器 跃进 ， 从 而 迫使 软件 工业 向 并 行 硬件 编程 跃进 。 并 行 
化 现在 是 提高 性 能 的 必要 途径 。 

计算 机 设计 总 是 以 价格 和 性 能 来 度量 的 ， 也 包括 其 他 一 些 重要 的 因素 ， 如 能 耗 、 可 靠 性 、 
成 本 和 可 扩展 性 等 。 尽 管 本 章 的 重点 在 于 价格 、 性 能 和 能 耗 ， 但 是 最 佳 的 设计 应 该 在 特定 的 应 
用 领域 中 取得 所 有 因素 之 间 适 当 的 平衡 。 


本 书 导读 


在 抽象 的 底部 是 计算 机 的 5 个 经 典 部 件 : 数据 通路 、 控 制 器 、 存 储 器 、 输 入 和 输出 〈 见 
图 1-5)。 这 5 个 部 件 也 是 本 书后 面 几 章 的 框架 ; 

e。 数据 通路 : 第 3、4、6 章 和 附录 C 

。 控制 器 : 第 4、6 章 和 附录 C 

。 存储 器 : 第 5 章 

。 输入 : 第 5 章 和 第 6 章 

。 输出 : 第 5 章 和 第 6 章 
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如 上 所 述 , 第 4 章 介绍 处 理 器 如 何 开 发 隐 式 并 行 性 ， 第 6 章 介 绍 并 行 革命 的 核心 一 一 显 式 
并 行 多 核 微 处 理 器 ， 附 录 C 介绍 高 度 并 行 的 图 像 处 理 器 芯片 。 第 5 章 介绍 如 何 开发 层次 存储 结 
构 的 访问 局 部 性 。 第 2 章 介绍 指令 集 (编译 器 和 计算 机 之 间 的 接口 ) ， 并 强调 了 编译 器 和 编程 
语言 在 利用 指令 集 特性 方面 的 作用 。 附 录 A 提供 了 第 2 章 指令 集 的 参考 数据 。 第 3 章 介绍 计算 
机 如 何 处 理 算术 运算 数据 。 附 录 B 介绍 逻辑 设计 。 


名 1. 12 历史 观点 和 拓展 阅读 


活 获 的 科学 顿 域 就 像 一 个 巨大 的 妈 蚊 寅 ; 人 们 消失 在 互相 对 主 的 现 点 中 ， 以 光速 
仿 昕 看 信息 ， 将 信息 从 一 个 地 方 传 到 另 一 个 地 方 。 
一 一 Lewis Thomas, 《Lives of a cell) 中 的 “自然 科学 ”，1974 


本 书 的 每 一 章 都 有 “历史 观点 和 拓展 阅读 ”一 节 ， 可 在 本 书 配套 网 站 上 找到 。 我 们 可 以 
通过 一 系列 的 计算 机 来 追踪 某 一 思想 的 发 展 历程 ， 或 者 叙述 一 些 历 史上 重要 的 项 目 贡 献 ， 还 提 
供 参考 资料 以 便 进一步 探究 。 

本 章 的 “历史 观点 ”提供 了 几 个 关键 思想 的 历史 背景 ， 其 目的 是 向 你 介绍 对 技术 进步 做 
出 贡献 的 重要 历史 人 物 以 及 他 们 的 事迹 。 通 过 理解 过 去 ， 你 可 以 更 好 地 理解 那些 推动 未 来 计算 
技术 进步 的 力量 。 配 套 网 站 中 每 个 历史 观点 之 后 都 会 提示 进一步 阅读 ， 这 部 分 具体 内 容 见 配套 
网 站 中 的 “进一步 阅读 ”部 分 。 在 配套 网 站 可 下 载 1. 12 节 的 剩余 部 分 。 


1.13 练习 题 


完成 练习 所 需 的 相对 时 间 比 率 标示 在 题 号 之 后 的 方 括号 中 。 平 均 来 说 ， 做 标记 [10] 的 练习 用 的 时 
间 是 做 标记 [5] 的 练习 的 2 倍 。 做 题 前 应 先 阅读 的 章节 则 标示 在 尖 括 号 中 。 例 如 ，<1.4 > 表示 你 应 该 
在 读 过 1. 4 节 后 才能 完成 本 题 。 
1.1 [2] <1.1 > 列举 和 描述 除 智能 手机 之 外 的 4 种 类 型 的 计算 机 。 
1.2 [5] <1.2> 计 算 机 系统 结构 中 的 8 个 伟大 思想 与 其 他 领域 的 思想 相同 。 将 计算 机 系统 结构 中 的 8 个 
伟大 思想 “面向 摩尔 定律 的 设计 ”、“ 使 用 抽象 简化 设计 ”、“ 加 速 大 概率 事件 ”"、“ 采 用 并 行 提高 性 
能 "、“ 采 用 流水 线 提高 性 能 "、“ 采 用 预测 提高 性 能 "、“ 存 储 器 层次 ”"、“ 通 过 元 余 提 高 可 靠 性 ”与 
其 他 领域 的 下 列 思想 进行 匹配 : 
a 汽车 制造 中 的 组 装 生 产 线 
b. 吊桥 缆 索 
c. 采用 风向 信息 的 飞机 和 船舶 导航 系统 
d. 高 楼 中 的 高 速 电 梯 
e. 图 书馆 的 预定 台 
f 通过 增 大 CMOS 晶体 管 的 顶 极 面积 来 减 小 翻转 时 间 
g. 增加 电磁 飞机 弹射 器 〈 不 同 于 流体 驱动 模型 ， 它 采用 电 驱 动 ) ， 人 允许 有 新 型 反应 堆 技术 才 生 成 更 
多 的 能 量 
h. 制造 自动 驾驶 汽车 ， 其 控制 系统 是 安装 在 汽车 上 的 传感器 系统 ， 例 如 车 道 偏离 检测 系统 和 智能 导 
航 控制 系统 
1.3 [2] <1.3 > 讲述 高 级 语言 (例如 C) 编写 的 程序 转化 为 能 够 直接 在 计算 机 处 理 器 上 执行 的 表示 的 
步骤 。 
1.4 [2] <1.4> 一 个 彩色 显示 器 中 的 每 个 像素 由 三 种 基色 ( 红 , 绿 ， 蓝 ) 构成 ， 每 种 基色 用 8 位 表示 ， 
分 辨 率 为 1 280 x 1 024 像素 。 
a. 为 了 保存 一 帧 图 像 最 少 需 要 多 大 的 缓存 ( 以 字 节 计算 )? 
b. 在 100Mbivs 的 网 络 上 传输 一 帧 图 像 最 少 需 要 多 长 时 间 ? 
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.5 


1.6 


1.7 


1.8 


1.8.1 
1.8.2 
1.8.3 


下 


1.9.1 


[4] <1.6> 有 3 种 不 同 的 处 理 器 Pl1、P2 和 P3 执行 同样 的 指令 集 ，P1 的 时 钟 频率 为 3GHz，CPI 

为 1.5; P2 的 时 钟 频率 为 2. 5GHz，CPI 为 1.0; P3 的 时 钟 频率 为 4GHz，CPI 为 2.2。 

a 以 每 秒 钟 执行 的 指令 数目 为 标准 ， 哪 个 处 理 器 性 能 最 高 ? 

b. 如 果 每 个 处 理 器 执行 一 个 程序 都 花费 10 秒 钟 时 间 ， 求 它们 的 时 钟 周 期 数 和 指令 数 。 

c. 我 们 试图 把 执行 时 间 减 少 30% ,但 这 会 引起 CPI 增加 20% 。 问 : 时 钟 频率 应 该 是 多 少 才能 达 
到 时 间 减 少 30% 的 目的 ? 

[20] <1.6> 同 一 个 指令 集体 系 结构 有 两 种 不 同 的 实现 方式 。 根 据 CPI 的 不 同 将 指令 分 成 4 类 

(A、B、C 和 DD)，P1l 的 时 钟 频率 为 2.5GHz，CPI 分 别 为 1、2、3 和 3; P2 时 钟 频率 为 3CHz， 

CPI 分 别 为 2、2、2 和 2。 

给 定 一 个 程序 ， 有 1.0 x 10' 条 动态 指令 ， 按 如 下 比例 分 为 4 类: A, 10%; B, 20%; C，50% ; 

D, 20% 。 

a 每 种 实现 方式 总 的 CPI 是 多 少 ? 

b. 计算 两 种 情况 下 的 时 钟 周期 。 

[15] <1.6 > 编译 程序 对 一 个 应 用 在 给 定 的 处 理 器 上 的 性 能 有 极 深 的 影响 。 假 定 一 个 程序 ， 如 果 

采用 编译 程序 A， 则 动态 指令 数 为 1. 0 x 10”， 执 行 时 间 为 1. 1s; 如 果 采 用 编译 程序 B， 则 动态 

指令 数 为 1. 2 x10”， 执 行 时 间 为 1. 5s。 

a. 在 给 定 处 理 器 时 钟 周期 为 1ns 时 ， 找 出 每 个 程序 的 平均 CPI。 

b. 假定 编译 程序 是 在 两 个 不 同 的 处 理 器 上 运行 的 。 如 果 这 两 个 处 理 器 的 执行 时 间 相 同 ， 求 运行 
编译 程序 A 的 处 理 器 时 钟 相对 于 运行 编译 程序 B 的 处 理 器 的 时 钟 快 多 少 ? 

c. 假设 开发 了 一 种 新 的 编译 程序 ， 只 用 6.0 x 10" 条 指令 ,平均 CPI 为 1. 1。 求 这 种 新 的 编译 程 
序 相对 于 原先 编译 程序 A 和 B 的 加 速 比 。 

2004 年 发 布 的 Pentium 4 Prescott 处 理 器 时 钟 频率 为 3. 6GHz， 工 作 电 压 为 1.25V。 假 定 平均 情况 

下 静态 功 耗 为 10W， 动 态 功 耗 为 90W。 

2012 年 发 布 的 Core i5 Ivy Bridge 时 钟 频率 为 3. 4GHz， 工 作 电 压 为 0.9V。 假 定 平均 情况 下 静态 功 

耗 为 30W， 动 态 功 耗 为 40W。 

[5] <1.7 > 分 别 求 出 每 个 处 理 器 的 平均 电容 负载 。 

[5] <1.7 > 对 于 每 种 工艺 , 求 出 静态 功 耗 占 总 功 耗 的 比例 和 蓄 态 功 耗 相 对 于 动态 功 耗 的 比率 。 

[15] <1.7 > 如 果 要 将 整体 功 耗 降低 10% ， 求 出 在 保持 漏电 流 不 变 的 情况 下 电压 要 降低 多 少 ? 

注意 : 功 耗 定 义 为 电压 与 电流 的 乘积 。 

在 一 个 处 理 器 中 ， 假 定 算术 指令 、load/store 指令 和 分 支 指令 的 CPI 分 别 是 1、12 和 5。 另外 假 

定 一 个 程序 在 单个 处 理 器 核 上 运行 时 需要 执行 2. 56 x 10” 条 算术 指令 、1. 28 x 10” 条 load/store 

指令 和 2.56E8 条 分 支 指令 ， 并 假定 处 理 器 的 时 钟 频率 为 2CHz。 

现 假定 程序 并 行 运行 在 多 核 上 ， 分 配 到 每 个 处 理 器 核 上 运行 的 算术 指令 和 load/store 指令 数目 为 

单 核 情况 下 相应 指令 数目 除 以 0.7 xp (p 是 处 理 器 的 数量 ) ， 而 每 个 处 理 器 的 分 支 指令 的 数量 保 

持 不 变 。 

[5] <1.7 > 求 出 当 该 程序 分 别 运行 在 1、2、4 和 8 个 处 理 器 核 上 的 执行 时 间 ， 并 求 出 其 他 情况 

下 相对 于 单 核 处 理 器 的 加 速 比 。 

[10] <1.6，1.8 > 如果 算术 指令 的 CPI 加 倍 ， 对 分 别 运行 在 1、2、4 和 8 个 处 理 器 核 上 的 执行 

时 间 有 何 影响 ? 

[10] <1.6，L.8 > 如 果 要 使 单 核 处 理 器 的 性 能 与 四 核 处 理 器 相当 ， 单 处 理 器 中 load/store 指令 的 

CPI 应 该 降低 多 少 ? 假定 四 核 处 理 器 的 CPI 保持 不 变 。 

假定 一 个 直径 15cm 的 晶 圆 的 成 本 是 12， 包 含 84 块 芯片 ， 其 缺陷 参数 为 0. 020 环 疲 /cm 。 而 一 

个 直径 20cm 的 晶 圆 的 成 本 是 153， 包含 100 块 芯片 ， 其 缺陷 参数 为 0. 031 甫 症 /cm” 

[10] <1.5 > 分 别 求 出 每 种 芯片 的 成 品 率 。 

[5] <1.5 > 分 别 求 出 每 种 芯片 的 价格 。 

[5] <1.5 > 如 每 晶 圆 的 芯片 数 增加 10% ， 每 单位 面积 的 下 疫 数 增加 15% ， 求 芯片 面积 和 成 

品 率 。 
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[5] <1.5 > 假设 随 着 电子 器 件 制造 技术 的 进步 ,成品 率 从 0.92 上 升 到 0. 95 。 给 定 芯片 面积 为 
200mm” ， 求 每 一 种 技术 下 单位 面积 的 瑕 症 数 。 
SPEC CPU 2006 的 bzip2 基准 程序 在 AMD Barcelona 处 理 器 上 执行 的 总 指令 数 为 2.38 x10”, 执 
行 时间 为 750s， 参考 时 间 为 9 650s。 
[5] <1.6，1.9 > 如 果 时 钟 周期 时 间 为 0.333ns, 求 CFI 值 。 
[5] <1.9 > 求 SPEC 的 分 值 。 
[5] <1.6，1.9 > 如果 基准 程序 的 指令 数 增加 10% ，CPI 不 变 , 求 CPU 时 间 增 加 多 少 ? 
[5] <1.6，1.9 > 如 果 基 准 程序 的 指令 数 增加 10% ，CPI 增加 5% ， 求 CPU 时 间 增 加 多 少 ? 
[5] <1.6，1.9 > 根据 上 题 中 指令 数 和 CPI 的 变化 ， 求 SPEC 分 值 的 变化 。 
[10] <1.6 > 假设 开发 了 一 款 新 的 AMD Barcelona 处 理 器 ， 其 工作 频率 为 4GHz， 在 其 指令 集中 
增加 了 一 些 新 的 指令 ， 从 而 使 程序 中 指令 数目 减少 了 15% ,程序 的 执行 时 间 减 少 到 了 700s， 
新 的 CPI 分 值 为 13.7， 求 新 的 CPI。 
[10] <1.6 > 当时 钟 频 率 由 3GHz 上 升 到 4GHz 时 ， 上 一 小 题 算出 的 CPI 比 1.11. 1 的 高 。 请 确 
定 CPI 的 升 高 是 否 与 频率 升 高 相同 ? 如 果 不 同 ， 为 什么 ? 
[5] <1.6 > CPU 时 间 减 少 了 多 少 ? 
[10] <1.6 > 对 第 二 个 基准 程序 libquantum， 假 定 执行 时 间 为 960ns，CPI 为 1. 61， 时 钟 频率 为 
3GHz。 在 时 钟 频率 为 4GHz 时 ， 在 不 影响 CPI 的 前 提 下 执行 时 间 降 低 10% ， 求 指令 数 。 
[10] <1.6 > 在 指令 数 和 CPI 保持 不 变 的 前 提 下 ， 如 果 要 将 CPU 时 间 进 一 步 减 少 10% ， 求 时 钟 
[10] <1.6 > 在 指令 数 保持 不 变 的 前 提 下 ， 如 果 要 将 CPI 降低 15% ，CPU 时 间 减 少 20% ， 求 时 
钟 频率 。 
1. 10 节 引 证 了 一 个 用 性 能 公式 的 一 个 子 集 去 计算 性 能 的 陷阱 。 为 了 说 明 它 ， 考 虑 下 面 两 种 处 
理 器 。P1 的 时 钟 频率 为 4CHz， 平 均 CPI 为 0.9， 需 要 执行 5.0 x10? 条 指令 ; P2 的 时 钟 频率 为 
3GHz， 平 均 CPI 为 0.75， 需 要 执行 1.0 x10? 条 指令 。 
[5] <1.6，1. 10 > 一 个 常见 的 错误 是 ， 认 为 时 钟 频率 最 高 的 计算 机 具有 最 高 的 性 能 。 这 种 说 法 
正确 吗 ? 请 用 Pl 和 P2 来 验证 这 一 说 法 。 
[10] <1.6，1. 10 > 另 一 个 错误 是 ， 认 为 执行 指令 最 多 的 处 理 器 需要 更 多 的 CPU 时 间 。 考 虑 P1 
执行 1.0 x10? 条 指令 序列 所 需 的 时 间 ，P1 和 P2 的 CPI 不 变 ， 计 算 一 下 P2 用 同样 的 时 间 可 以 
执行 多 少 条 指令 ? 
[10] <1.6，1. 10 > 一 个 常见 的 错误 是 用 MIPS (每 秒 百 万 条 指令 ) 来 比较 两 台 不 同 的 处 理 器 的 
性 能 ， 并 认为 MIPS 最 大 的 处 理 器 具有 最 高 的 性 能 。 这 种 说 法 正确 吗 ? 请 用 Pl 和 P2 验证 这 一 
说 法 。 
[10] <1. 10 > 另 一 个 常见 的 性 能 标志 是 MFLOPS (每 秒 百 万 条 浮 点 指令 ) ， 其 定义 为 

MFLOPS = 浮 点 操作 的 数目 / (执行 时 间 x (1x10'))。 
它 与 MIPS 有 同样 的 问题 。 假 定 PE 和 P2 上 执行 的 指令 有 40% 的 浮 点 指令 ， 求 出 程序 的 
MFLOPS。 
1. 10 节 引 证 另 一 个 易 犯 的 错误 是 通过 只 改进 计算 机 的 一 个 方面 来 改进 计算 机 的 总 体 性 能 。 假 
如 一 台 计 算 机 上 运行 一 个 程序 需要 250s， 其 中 70s 用 于 执行 浮 点 指令 ，85s 用 于 执行 L/S 指令 ， 
40s 用 于 执行 分 支 指令 。 
[5] <1. 10 > 如 果 浮 点 操作 的 时 间 减 少 20% ， 总 时 间 将 减少 多 少 ? 
[5] <1. 10 > 如 果 总 时 间 减 少 20% ， 整 数 操作 时 间 将 减少 多 少 ? 
[5] <1. 10 > 如 果 只 减少 分 支 指令 时 间 ， 总 时 间 能 和 否 减少 20% ? 
假定 一 个 程序 需要 执行 50 x 106 条 浮 点 指令 、110 x 106 条 整数 指令 、80 x 106 条 L/S 指令 和 16 
x 106 条 分 支 指 令 。 每 种 类 型 指令 的 CPI 分 别 是 1、1、4 和 2。 假 定 处 理 器 的 时 钟 频率 为 2CHz。 
[10] <1. 10 > 如 果 我 们 要 将 程序 运行 速度 提高 至 2 倍 ， 浮 点 指令 的 CPI 需 如 何 改进 ? 
[10] <1. 10 > 如 果 我 们 要 将 程序 运行 速度 提高 至 2 倍 ，L/S 指令 的 CPI 需 如 何 改进 ? 
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1.14.3 


1. 1S 





[5] <1. 10 > 如 果 整 数 和 浮 点 指令 的 CPI 减少 40% ，L/S 和 分 支 指令 的 CPI 减少 30% ， 程 序 的 执 
行 时 间 能 改进 多 少 ? 

[5] <1.8 > 多 处 理 器 系统 中 的 执行 时 间 可 分 成 例 程 计算 时 间 加 处 理 器 之 间 的 通信 时 间 。 

假定 一 个 程序 在 单 处 理 器 上 执行 时 需要 +=100s。 当 它 在 p 个 处 理 器 上 运行 时 ， 每 个 处 理 器 需要 
tp s 的 计算 时 间 ， 两 外 还 需要 4s 的 开销 ， 且 开销 与 处 理 器 数量 无 关 。 在 处 理 器 数目 分 别 为 2、 
4、8、16、32、64 和 128 时 ,计算 每 个 处 理 器 的 执行 时 间 。 在 每 种 情况 下 ， 列 出 相对 于 单 处 理 
器 的 加 速 比 和 实际 加 速 比 与 理想 加 速 比 的 比值 (理想 加 速 比 是 指 没有 开销 情况 下 的 加 速 比 ) 。 


车 小 测验 答案 

1.1 问题 讨论 : 可 以 有 多 种 答案 。 

1.3 DRAM 存储 器 : 易 失 性 ， 访 问 时 间 短 (大约 50 ~70ns),， 每 GB 的 价格 ( $5 ~ $10) 。 磁 盘存 储 
器 : 非 易 失 性 ， 访 问 时 间 比 DRAM 慢 100 000 ~ 400 000 倍 , 每 GB 的 价格 比 DRAM 便宜 100 倍 。 
Flash 存储 器 : 非 易 失 性 ， 访 问 时 间 比 DRAM 慢 100 ~1 000 倍 , 每 GB 的 价格 比 DRAM 便宜 7 ~ 
10 倍 。 

1.5 1、3、4 是 正确 答案 ， 答 案 5 一 般 可 认为 正确 ， 因 为 产量 高 时 能 促使 额外 投资 去 减 小 芯片 面积 ， 
例如 减 小 10% ， 这 是 一 种 经 济 决策 ， 但 并 不 总 是 正确 。 

1.6 1. 两 者 都 改进 ，2. 延迟 ，3. 都 不 改进 ; 7s。 

1.6 b 

1.10 a. 计算 机 A 有 较 高 的 MIPS 值 ; b. 计算 机 B 更 快 。 
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指令 : 计算 机 的 语言 





计算 机 的 5 个 经 典 部 件 


我 对 上 帝 说 画 班 年 语 ， 对 女人 说 意大利 语 ， 对 男人 说 法 语 ， 对 我 的 马 说 德语 。 
一 一 法 国 国 王 查 理 五 世 (1500 一 1558) 


2.1 引言 


要 计算 机 服从 指挥 ， 就 必须 用 计算 机 的 语言 。 计 算 机 语言 中 的 基本 单词 称 为 指令 ， 一 台 计 
算 机 的 全 部 指令 称 为 该 计算 机 的 指令 集 (instruction set) 。 本 章 将 介绍 实际 计算 机 指令 集 的 两 
种 形式 : 一 种 是 人 们 编程 书写 的 形式 ， 另 一 种 是 计算 机 所 能 识别 的 形式 。 我 们 将 以 自 顶 向 下 的 
方式 来 介绍 ， 从 看 似 受 约束 的 汇编 语言 助 记 符 开始 ， 逐 步 精 炼 到 实际 计算 机 的 真实 语言 。 第 3 
章 将 继续 采用 这 种 向 下 探究 的 方式 ， 揭 示 算 术 运 算 的 硬件 以 及 浮 点 数 的 表示 方法 。 


人 指令 集 : 一 个 给 定 的 计算 机 体系 结构 所 包含 的 指令 集合 。 


尽管 机 器 语言 种 类 繁多 ， 但 它们 之 间 十 分 类 似 ， 其 差异 性 更 像 人 类 语言 中 的 “方言 ”， 而 
非 各 自 独 立 的 语言 。 因 此 ， 理 解 了 一 种 机 器 语言 ， 其 他 种 类 的 机 器 语言 也 就 容易 理解 了 。 

本 书 选择 MIPS 技术 的 指令 集 ， 它 是 自 20 世纪 80 年 代 以 来 出 现 的 优秀 指令 集 。 通 过 简要 
介绍 其 他 三 种 流行 的 指令 集 可 以 看 出 MIPS 指令 的 优势 。 
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1) ARMV7 与 MIPS 类 似 。2011 年 ，ARM 处 理 器 芯片 的 产量 超过 90 亿 片 ， 这 使 得 ARMv7 
成 为 最 流行 的 指令 集 。 

2) 第 二 个 例子 是 Intel x86， 在 PC 领域 和 后 PC 时 代 的 云 计算 领域 占 统治 地 位 。 

3) 第 三 个 例子 是 ARMv8， 它 将 ARMv7 的 地 址 范围 由 32 位 扩展 到 64 位 。 而 具有 讽刺 意味 
的 是 ， 这 个 2013 年 产生 的 指令 集 更 加 接近 于 MIPS， 而 非 ARMv7。 

这 种 相似 性 一 方面 是 因为 所 有 计算 机 都 是 基于 基本 原理 相似 的 硬件 技术 所 构建 的 ， 另 一 方 
面 是 因为 所 有 计算 机 都 必须 提供 一 些 基本 操作 。 此 外 ,计算 机 设计 者 有 一 个 共同 的 目标 : 找到 
一 种 语言 ， 可 方便 硬件 和 编译 器 的 设计 ， 且 使 性 能 最 佳 ， 同 时 使 成 本 和 功 耗 最 低 。 但 实现 这 个 
目标 需要 长 期 的 探索 。 下 述 引 文 写 于 计算 机 出 现 不 久 的 1947 年 ， 但 今天 它 仍 然 适 用 : 

用 形式 远 辑 的 方法 可 以 很 容易 看 到 ， 在 理论 上 存在 着 某 种 “ 指 含 集 ” 足 以 控制 

位 何 的 操作 序列 并 使 之 执行 …… 从 当前 的 观点 出 发 ， 在 这 择 一 个 “ 指 合集 ”时 ， 丰 

正 的 决定 性 因素 是 要 更 多 地 考虑 其 实际 性 质 :“ 指 合集 ”要 求 的 设备 简单 性 ， 它 的 意 

用 对 于 解决 实际 重要 问题 的 明确 性 以 及 它 解 决 该 类 问题 的 处 理 亿 着。 

Burks、 Goldstine von Neumann, 1947 

无 论 是 对 20 世纪 50 年 代 的 计算 机 而 言 ， 还 是 对 现代 的 计算 机 来 说 , “设备 简单 性 ”都 是 
值得 考虑 的 重要 问题 。 本 章 的 目的 就 是 讲解 符合 此 原则 的 一 种 指令 集 ， 介 绍 它 怎 样 用 硬件 表 
示 ， 以 及 它 和 高 级 编程 语言 之 间 的 关系 。 我 们 的 示例 使 用 C 语言 编写 ，2. 15 节 介绍 了 在 使 用 
像 Java 这 样 的 面向 对 象 语 言 时 会 有 什么 不 同 。 

通过 理解 如 何 表述 指令 ， 读 者 也 将 发 现 计 算 的 秘密 : 存储 程序 概念 〈stored- program con- 
cept) 。 此 外 ， 通 过 使 用 机 器 语言 编程 ， 并 在 本 书 提供 的 模拟 器 中 运行 ， 读 者 将 进一步 体会 到 
编程 语言 和 编译 优化 对 程序 性 能 的 影响 。 本 章 结束 时 我 们 将 简要 介绍 指令 集 的 发 展 历史 和 其 他 
的 计算 机 “方言 ”。 

全” 存储 程序 概念 : 多 种 类 型 的 指令 和 数据 均 以 数字 形式 存储 于 存储 器 中 的 概念 ， 存 储 程序 型 
计算 机 即 源 于 此 。 


我 们 结合 计算 机 的 结构 ， 逐 步 讲 解 MIPS 指令 集 。 采 用 自 顶 向 下 、 循 序 渐进 的 方法 并 结合 各 
部 件 及 其 说 明 ， 尽 量 使 机 器 语言 变 得 不 再 枯燥 。 图 2-1 给 出 了 本 章 将 要 介绍 的 指令 集 的 总 体 情况 。 





MIPS 操作 数 


a 寄存 器 用 于 数据 的 快速 存 取 。 在 MIPS 中 ， 只 

s ST 人 能 对 存放 在 寄存 器 中 的 数据 执行 算术 操作 ， 寄 存 

32 个 寄存 器 $a0 - $a3, $v0 - $v1, $gp, $fp, 器 $zero 的 值 恒 为 0， 寄 存 器 $at 被 汇编 器 保 
$sp, $ra, $at 留 ， 用 于 处 理 大 的 常数 











Rec Th Wt A 存储 器 只 能 通过 数据 传输 指令 访问 。MIPS 使 
29 个 不久 器 字 | iomory [4204965202] 用 字 节 编 址 ， 所 以 连续 的 字 地 址 相差 4。 存 储 器 
用 于 保存 数据 结构 、 数 组 和 溢出 的 寄存 器 


MIPS 汇编 语言 








$sl = $s2 + $s3 三 个 寄存 器 操作 数 
$sl = $s2 - $s3 三 个 寄存 器 操作 数 
$sl = $s2 +20 用 于 加 常数 数据 


图 2-1 本 章 要 讲解 的 是 MIPS 汇编 语言 指令 。 示 例 含义 注释 信息 也 可 以 在 MIPS 参考 数据 卡 的 第 1 列 中 找到 


























立即 数 加 法 addi $sl,$s2,20 




































$sl =Memory[ $s2 +20] 


将 一 个 字 从 内 存 中 








Memory[ $s2 +20] = $s1 





















$sl = Memory[ $s2 +20] 





将 一 个 字 从 寄存 器 


将 半 个 字 从 内 存 中 

















Memory[ $s2 +20] = $s1 








= 









$sl = Memory[ $s2 +20] idk i 


将 半 个 字 从 寄存 器 





将 一 个 字 节 从 内 存 





$sl =Memory[ $s2 +20] | 


$sl = Memory[ $s2 +20] 




















将 一 个 字 节 从 内 存 





Memory[ $s2 +20] = $s1 


将 一 个 字 节 从 寄存 





$s1l = Memory[ $s2 +20] 























Memory[ $s2 +20] = $s1; 
$sl =0 or 1 





取 字 作为 原子 交换 





存 字 作为 原子 交换 









$sl =20 * 216 















$sl= $s2 & $s3 














$s1l,$s2,$s3 $sl= $s21 $s3 





取 立 即 数 并 放 到 高 





三 个 寄存 器 操作 数 
位 与 








三 个 寄存 器 操作 数 











$sl = ~( $s2 | $s3) 















说 网 





$sl = $s2 &20 


三 个 寄存 器 操作 数 











$sl =$s2 1 20 




















$sl = $s2 <<10 


































根据 常数 左 移 相 








$s1 = $s2 >>10 


根据 常数 右 移 相 





if($sl == $s2) goto 
PC +4 +100 












相等 检测 ; 










if( $sl! = $s2) goto 
PC +4 +100 

















if( $s2 < $s3) $sl =1; 
else $sl =0 





着 他 证 法 


无 符号 数 比 较 小 于 时 
置 位 












if( $s2 < $s3) $sl =1; 
else $sl =0 











无 符号 数 比 较 小 于 立 


无 符号 数 比 较 小 于 无 


符号 立即 数 时 置 位 sltiu $sl,$s2,20 













if( $s2 <20) $sl =1; 
else $sl =0 

if( $s2 <20) $sl =1; 
else $sl =0 



























比较 是 否 小 于 ; 
beq, bne 

比较 是 否 小 于 无 符 
号 数 
比较 是 否 小 于 常数 
比较 是 否 小 于 无 符 
号 常数 











跳 转 至 寄存 器 所 指 
位 置 






媒 杜 站 浴 册 








用 于 switch 语句 ， 








$ra = PC +4; go to 10000 





( 续 ) 
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2.2 计算 机 硬件 的 操作 


这 无 话 问 ， 计 算 机 巡 须 有 执行 基本 算 木 运算 操作 的 指令 - 
Burks、 Goldstine von Neumann, 1947 

任何 计算 机 必须 能 够 执行 算术 运算 。MIPS 汇编 语言 的 下 述 记 法 

add a. b, c 
表示 将 两 个 变量 b 和 c 相 加 ， 并 将 它们 的 和 放 和 人 变量 a 中 。 

这 种 记 法 的 表示 方式 是 固定 的 : 每 条 MIPS 算术 指令 只 执行 一 个 操作 ， 并 且 有 且 仅 有 3 个 
变量 。 例 如 ， 若 要 将 变量 bp、c、d、e 之 和 放 和 人 变量 a 中 (本 节 不 深究 “变量 ”的 含义 ， 下 一 
节 将 给 出 其 详细 说 明 ) 。 

下 面 的 指令 序列 将 完成 此 4 个 变量 的 相 加 : 


add a, b, c # The sum of b and cis placed in a 
add a, a, d # The sum of b, c, and d is now in a 
add a, a, e # The Sum of b, c, d, and e is now in a 


以 上 3 条 指令 完成 了 4 个 变量 的 相 加 。 

上 述 每 行 代码 中 ， 符 号 “#” 右边 的 是 注释 ,用 于 帮助 人 们 理解 程序 ， 而 计算 机 将 忽略 它 
们 - 注意 与 其 他 编程 语言 不 同 的 是 ， 这 种 语言 的 每 一 行 最 多 只 有 一 条 指令 。 另 一 个 与 C 语言 不 
同 的 是 ， 注 释 总 是 在 一 行 的 末尾 结束 。 

与 加 法 类 似 的 指令 一 般 都 有 三 个 操作 数 : 两 个 进行 运算 的 数 和 一 个 保存 结果 的 数 。 要 求 每 
条 指令 有 且 仅 有 三 个 操作 数 ， 这 一 点 符合 硬件 简单 性 的 设计 原则 : 操作 数 个 数 可 变 将 给 硬件 设 
计 带 来 更 大 的 复杂 性 。 这 种 情况 说 明了 硬件 设计 三 条 基本 原则 的 第 一 条 : 

设计 原则 1: 简单 源 于 规整 。 

下 面 的 两 个 示例 程序 展示 了 用 高 级 编程 语言 编写 的 程序 和 用 汇编 语言 编写 的 程序 之 间 的 
关系 。 





加 例题. 把 C 语言 中 两 条 赋值 语句 编译 成 MIPS 
本 例 中 C 语言 程序 包含 5 个 变量 ,a、b、c、G 和 e。 因 为 Java 语言 由 C 语言 演化 而 来 ， 
所 以 本 例 及 以 后 若干 例子 对 这 两 种 高 级 语言 均 适 用 : 


a=b 二 Cs; 


将 C 语言 程序 转换 为 MIPS 汇编 指令 是 由 编译 器 完成 的 。 写 出 由 编译 器 生成 的 MIPS 代码 。 
本 答案 

一 条 MIPS 指令 对 来 自 两 个 源 操作 数 寄存 器 的 操作 数 进行 运算 ， 并 将 结果 存 人 目的 寄存 器 。 
因此 上 面 两 条 简单 的 C 语句 可 直接 编译 为 如 下 两 条 MIPS 汇编 指令 : 


add a, b, c 
sub d. a, e 口 


厂 ) 例题 . 把 C 语言 中 一 条 复杂 的 赋值 语句 编 译 成 MIPS 
下 面 一 行 复杂 的 C 语句 包含 5 个 变量 f、g、h、i 和 上 j: 


FF = Cg hh -i 
C 编译 器 将 产生 什么 样 的 MIPS 汇编 语言 代码 ? 
四 | 答案 


因为 一 条 MIPS 指令 仅 执行 一 个 操作 ， 所 以 编译 器 必须 将 这 条 C 语句 编译 成 多 条 汇编 指令 。 
若 第 一 条 指令 计算 g 与 h 的 和 ， 其 结果 必须 暂 存在 某 一 个 地 方 。 因 此 ， 编 译 器 需 创建 一 个 临时 
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变量 t0 : 

add t0,g,h # temporary variable t0 contains g + h 

虽然 下 一 个 操作 是 减法 ,但 在 做 减法 操作 之 前 ， 必 须 先 计算 出 i 与 了 的 和 。 因 此 , 第 二 条 
指令 将 i、j 之 和 存 于 由 编译 器 创建 的 另 一 个 临时 变量 tl 中 : 

add tl,i,j # temporary variable tl contains i +j 

最 后 ， 用 一 条 减法 指令 将 两 个 临时 变量 中 的 值 相 减 ， 结 果 存 人 变量 £， 完 成 编译 : 


sub f,t0,tl # f gets to - tl, which is (g++ h)- (i+j) 口 


o 唱 小 测验 

对 于 一 个 给 定 的 功能 ， 用 下 列 哪 种 编程 语言 实现 可 能 花费 的 代码 行 数 最 多 ? 将 下 面 3 种 语 
言 排 序 : 

1. Java 

2 

3. MIPS 汇编 语言 


oo 精 解 ”为 了 增强 可 移植 性 ，jJava 最 初 被 设 定 为 依靠 软件 解释 器 执行 的 语言 。 解 释 器 的 指令 
集 称 作 Java 字 节 码 (Java bytecode， 参 见 2.15 节 )， 它 与 MIPS 指令 集 有 很 大 不 同 。 为 使 
性 能 与 等 效 功能 的 C 程序 接近 ，jJava 系统 现在 的 典型 做 法 是 将 字 节 码 编 译 成 类 似 MIPS 这 
样 的 机 器 指令 。 因 为 通常 Java 完成 编译 的 时 间 久 于 C， 所 以 Java 编译 器 常 称 为 即时 编译 器 
(Just In Time，JIT) 。2. 12 节 展 示 了 在 程序 启动 阶段 JIT 是 如 何 迟 于 C 编译 器 的 ，2. 13 节 
展示 了 Java 程序 的 编译 执行 和 解释 执行 的 性 能 比较 。 


2.3 计算 机 硬件 的 操作 数 


与 高 级 语言 程序 不 同 ，MIPS 算术 运算 指令 的 操作 数 是 很 严格 的 ， 它 们 必须 来 自 寄存 器 。 
寄存 器 由 硬件 直接 构建 且 数 量 有 限 ， 是 计算 机 硬件 设计 的 基本 元 素 。 当 计算 机 设计 完成 后 ， 寄 
存 器 对 程序 员 是 可 见 的 ， 所 以 也 可 以 把 寄存 器 想象 成 构造 计算 机 “建筑 ”的 “ 砖 抉 "。 在 
MIPS 体系 结构 中 寄存 器 大 小 为 32 位 ， 由 于 32 位 为 一 组 的 情况 经 常 出 现 ， 因 此 在 MIPS 体系 结 
构 中 将 其 称 为 字 (word) 。 


全” 字 : 计算 机 中 的 基本 访问 单位 ， 通 常 是 32 位 为 一 组 ,在 MIPS 体系 结构 中 与 寄存 器 大 小 
相同 。 


高 级 语言 的 变量 与 寄存 器 的 一 个 主要 区 别 在 于 寄存 器 的 数量 有 限 ，MIPS 一 类 的 典型 的 现 
代 计 算 机 中 有 32 个 寄存 器 〈 参 见 2. 21 节 有 关 寄 存 器 数目 的 演变 历史 ) 。 下 面 继续 以 自 项 向 下 
的 方式 引入 新 的 MIPS 语言 的 符号 表示 。 在 本 节 中 MIPS 算术 指令 的 三 个 操作 数 限定 为 必须 从 
32 个 32 位 寄存 器 中 选取 。 

寄存 器 个 数 限制 为 32 个 的 理由 可 以 表示 为 硬件 设计 三 条 基本 原则 中 的 第 二 条 : 

设计 原则 2: 越 小 越 快 。 

大 量 的 寄存 器 可 能 会 使 时 钟 周期 变 长 ， 因 为 电信 号 传输 更 远 的 距离 必然 花费 更 长 的 时 间 。 

当然 ， 该 原则 也 不 是 绝对 的 ，31 个 寄存 器 不 见得 比 32 个 更 快 。 但 表象 背后 的 物理 事实 值 
得 计算 机 设计 者 认真 对 待 。 在 这 种 情况 下 ， 设 计 者 必须 在 程序 期 望 更 多 寄存 器 和 加 快 时 钟 周期 
之 间 进 行 权衡 。 另 一 个 不 使 用 多 于 32 个 寄存 器 的 原因 是 受 指令 格式 位 数 的 限制 ， 这 在 2.5 节 
有 相应 介绍 。 
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第 4 章 论证 了 寄存 器 在 硬件 结构 中 所 扮演 的 核心 角色 。 正 如 该 章 所 述 ， 有 效 利用 寄存 器 对 
Te 
管 可 以 简单 使 用 序号 0 ~31 表示 相应 的 寄存 器 ,但 MIPS 约定 书写 指令 时 用 一 
和 个 寄存 器 - 2.8 节 将 解释 这 一 做 法 的 理由 。 We 
$sl ，… 来 表示 与 C 和 Java 程序 中 的 变量 所 对 应 的 寄存 器 ; 用 St0 ， $tl ，… 来 表示 将 程序 编译 
为 MIPS 指令 时 所 需 的 临时 寄存 器 。 


四 例题 ， 使 用 寄存 器 编译 C 感 值 语句 

将 程序 变 重 和 告 丰 知 浊 应 起 来 是 编译 器 的 工作 。 以 我 们 前 面 讲 过 的 C 赋值 语句 为 例 : 

f= (tg 二 hi = (1 + js 

变量 f£、g、hn、i 和 jj 依次 分 配给 寄存 器 $s0、S$si、$s2、$s3 和 $s4。 编译 后 的 
MIPS 代码 是 什么 ? 
加 

除了 将 变量 用 上 述 寄 存 器 代 蔡 和 $t0 和 S$tl 代替 外 ， 编 译 后 生成 的 代 
码 与 前 面 例题 中 的 代码 非常 相似 : 


add $t0,$sl,$s2 # register St0 contains g+h 
add $tl,$s3,$s4 # register $tl contains i +]j 
sub $s0,$t0,$tl # f gets St0 - $tl, which is (g + h)-(i + j) 口 


2. 3.1 存储 器 操作 数 


编程 语言 中 ， 有 像 上 面 这 些 例题 中 仅 含 一 个 数据 元 素 的 简单 变量 ,也 有 像 数 组 或 结构 那样 
的 复杂 数据 结构 。 这 些 复 杂 数 据 结 构 中 的 数据 元 素 可 能 远 多 于 计算 机 中 寄存 器 的 个 数 。 计 算 机 
怎样 来 表示 和 访问 这 样 大 的 结构 呢 ? 

回忆 一 下 第 1 章 所 描述 的 计算 机 的 5 个 组 成 部 分 。 处 理 


器 只 能 将 少量 数据 保存 在 寄存 器 中 ,但 存储 器 有 数 十 亿 的 数 3 
据 元 素 。 因 此 ， 数 据 结构 (如 数组 和 结构 ) 是 存放 在 存储 器 2 | ww | 
中 的 。 ;| we 

如 上 所 述 ，MIPS 的 算术 运算 指令 只 对 寄存 器 进行 操作 ， 0 | 
因此 ，MIPS 必须 包含 在 存储 器 和 寄存 器 之 间 传 送 数 据 的 指 地 址 数据 
令 。 这 些 指 令 叫 作 数据 传送 指令 (data transfer instruction ) 。 处 理 器 存储 器 


为 了 访问 存储 器 中 的 一 个 字 ， 指 令 必须 给 出 存储 器 地 址 (aa 。 [| | 
dress) 。 存 储 器 就 是 一 个 很 大 的 下 标 从 0 开始 的 一 维 数组 ， ”图 2.2 存储 器 地 址 和 该 地 址 对 应 


地 址 就 相当 于 数组 的 下 标 。 例 如， 在 图 2-2 中 ,第 三 个 数据 的 数据 。 如 果 这 些 元 素 是 

元 素 的 地 址 为 2， 存 放 的 数据 为 10。 字 ， 那么 这 些 地 址 就 是 错 

误 的 ， 因 为 MIPS 实际 上 

> 数据 传送 指令 : 在 存储 器 和 寄存 器 之 间 移 动 数 据 的 是 按 字 节 编 址 的 ， 而 一 个 

大 入 字 是 4 字 节 。 图 2-3 给 出 

二 地址， 用 于 在 存储 器 空间 中 指明 某 特 定数 据 元 素 位 置 了 顺序 字 编 址 的 内 存 寻 址 
的 值 。 


将 数据 从 存储 器 复制 到 寄存 器 的 数据 传送 指令 通常 叫 取 数 (load) 指令 。 取 数 指令 的 格式 
是 操作 码 后 接着 目标 寄存 器 ， 再 后 面 是 用 来 访问 存储 器 的 常数 和 寄存 器 。 常 数 和 第 二 个 寄存 器 
中 的 值 相 加 即 得 存储 器 地 址 。 实 际 的 MIPS 取 数 指令 助 记 符 为 lw， 为 load word 的 缩写 。 
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图 例题 编译 一 个 操作 数 在 存储 器 中 的 C 赋值 语句 


设 A 是 一 个 含有 100 个 字 的 数组 ， 像 前 面 的 例题 一 样 ， 编 译 器 仍然 将 寄存 器 $sl 、$s2 
依次 分 配给 变量 gs、h。 又 设 数组 A 的 起 始 地 址 (或 称 基 址 (base address) ) 存放 在 寄存 器 $ 
s3 中 。 试 编译 下 面 的 C 赋值 语句 : 


g=h + A[L8]; 


著 ] 答案 

虽然 该 C 赋值 语句 只 有 一 个 操作 ,但 其 中 一 个 操作 数 在 存储 器 中 ， 所 以 首先 必须 将 A [8 ] 
传送 到 寄存 器 中 。 其 地 址 是 $s3 中 的 基 址 加 上 该 元 素 序号 8。 取 回 的 数据 应 放 在 一 个 临时 寄存 
器 中 以 便 下 条 指令 使 用 。 由 图 2-2 可 知 ， 编 译 后 生成 的 第 一 条 指令 为 : 

1w $t0,8($s3) # Temporary reg $t0 gets A[8] 

(这 里 是 一 种 简化 版 描述 ， 后 面 会 对 这 条 指令 做 相关 的 微调 。) 因为 A [8] 已 取 到 寄存 器 
$t0 中 ， 下 一 条 指令 就 可 对 $t0 进行 操作 。 该 指令 将 h (在 $s2 中 ) 加 上 A [8] (在 $t0 
中 ) ， 并 将 结果 放 到 对 应 于 g 的 寄存 器 $sl 中 : 

add $s1,$s2,$t0 #9g= h + AL8] 

数据 传送 指令 中 的 常量 (本 例 中 为 8) 称 为 偏 移 量 (offset)， 存 放 基 址 的 寄存 器 (本 例 中 
为 $s3) 称 为 基 址 寄存 器 (base register) 。 口 


加 硬件 /软件 接口 ”除了 将 变量 与 寄存 器 对 应 起 来 ， 编 译 器 还 在 存储 器 中 为 诸如 数组 和 结构 
这 样 的 数据 结构 分 配 相应 的 位 置 。 然 后 ， 编 译 器 可 以 将 它们 在 存储 器 中 的 起 始 地 址 放 到 数 
据 传送 指令 中 。 

很 多 程序 都 用 到 8 比特 的 字 节 类 型 ， 且 大 多 数 体系 ; 
结构 按 字 节 编 址 。 因 此 ， 一 个 字 的 地 址 必 和 它 所 包括 的 2 [io 


4 字 节 中 某 个 的 地 址 相 匹配 ， 且 和 连续 字 的 地 址 相差 4。 8 | 1 

例如 ， 图 2-3 给 出 了 图 2-2 的 实际 MIPS 地 址 ， 其 中 第 三 4 101 

个 字 的 字 节 地 址 是 8。 o | 1 | 
因为 MIPS 是 按 字 节 编 址 的 ， 所 以 字 的 起 始 地 址 必 字 节 地 址 。 “数据 

须 是 4 的 倍数 。 这 叫 对 齐 限制 (alignment restriction ) ， ”处 理 器 存储 器 

许多 体系 结构 都 有 这 样 的 限制 (第 4 章 说 明了 对 齐 能 加 

人 图 2-3 实际 的 MIPS 存储 器 地 
有 两 种 类 型 的 字 节 寻 址 的 计算 机 : 一 种 使 用 最 左 址 和 该 地 址 对 应 的 数 

边 或 “大 端 ” (big end) 字 节 的 地 址 作为 字 地 址 ; 另 据 。 相 对 于 图 2-2， 变 

一 种 使 用 最 右边 或 “小 端 ”(little end) 字 节 的 地 址 作 ee。 

为 字 。MIPS 是 big-endian ) 。 不 。 

eo et 

倍数 ， 因 为 每 个 字 的 长 

才 起 作用 ， 因 此 大 多 数 情况 下 不 需要 关注 该 问题 。( 附 ， 诬 为 4 字 池 

录 A 中 给 出 了 在 一 个 字 中 对 字 节 进行 记 数 的 两 种 

方法 。) 


字 节 寻 址 也 影响 到 数组 下 标 。 在 上 面 的 代码 中 ,为 了 得 到 正确 的 字 节 地 址 ， 与 基 址 寄 
存 器 $s3 相 加 的 偏 移 量 必须 是 4x8， 即 32， 这 样 才 能 正确 读 到 A [8]， 而 不 会 错 读 到 
A [8/4]。( 参 见 2.19 节 中 相关 陷阱 的 介绍 。) 

与 取 数 指令 相对 应 的 指令 通常 叫 作 存 数 (store) 指令 ; 它 将 数据 从 寄存 器 复制 到 存 
储 器 。 存 数 指令 的 格式 和 取 数 指令 相似 : 首先 是 操作 码 ， 接 着 是 包含 待 存储 数据 的 寄存 
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器 ， 然 后 是 数组 元 素 的 偏 移 量 ， 最 后 是 基 址 寄存 器 。 同 样 ，MIPS 地 址 由 常数 和 基 址 寄存 
器 内 容 共 同 决 定 。 实 际 的 MIPS 存 数 指令 为 sw， 即 store word 的 缩写 。 


。” 对齐 限 制 : 数据 地 址 与 存储 器 的 自然 边界 对 齐 的 要 求 。 


区 | 硬件 /软件 接口 、 由 于 load 和 store 指令 中 的 地 址 是 二 进 制 ， 因 此 作为 主 存 的 DRAM 的 容量 
使 用 二 进 制 表示 ， 而 非 十 进 制 。 例 如 ， 使 用 gebibytes (2”) 或 tebibytes (2%) 表示 ， 而 不 
用 gigabytes (10”) 或 terabytes (102) ， 见 图 1-1。 


加 例题 * 用 取 数 / 存 数 指令 进行 编译 
假设 变量 h 存放 在 奇 存 器 $s2 中 ， 数 组 A 的 基 址 放 在 $s3 中 。 试 编译 下 面 的 C 赋值 语句 : 


A[12] = h + Ar[8]; 


本 答案 

虽然 该 C 语句 只 有 一 个 操作 ， 但 是 有 两 个 操作 数 在 存储 器 中 ， 因 此 ， 需 要 更 多 的 MIPS 指 
令 。 前 两 条 指令 基本 上 与 上 个 例题 相同 ， 除 了 本 例 在 取 数 指令 中 选择 A [8] 时 使 用 了 字 节 导 
址 中 正确 的 偏 移 量 ， 并 且 加 法 指令 将 结果 放 在 临时 寄存 器 St0 中 : 


1w $t0,32($s3) # Temporary reg $t0 gets A[8] 
add S$t0,$s2,$t0 # Temporary reg $t0 gets h + A[8] 


一 条 指令 使 用 48 (4 x12) 作为 偏 移 量 ， 寄 存 器 $s3 作为 基 址 寄存 器 ， 将 加 法 结果 存 
放 到 存储 器 单元 A [12] 中 。 
Sw $t0,48($s3) 并 Stores h + AL8] back into AL[12] 
lw 和 sw 是 MIPS 体系 结构 中 在 存储 器 和 寄存 器 之 间 复 制 字 的 指令 。 其 他 计算 机 有 各 自 相应 
的 取 数 / 存 数 指令 来 传送 数据 。Intel x86 体系 结构 中 类 似 的 指令 见 2. 17 节 。 口 


加 ;硬件 /软件 接口 许多 程序 的 变量 个 数 要 远 多 于 计算 机 的 寄存 器 个 数 。 因 此 ， 编 译 器 会 尽 
量 将 最 常用 的 变量 保持 在 寄存 器 中 ， 而 将 其 他 的 变量 放 在 存储 器 中 ， 方 法 是 使 用 取 数 / 存 
数 指 令 在 寄存 器 和 存储 器 之 间 传 送 变 量 。 将 不 常 使 用 的 变量 (或 稍 后 才 使 用 的 变量 ) 存 
回 到 存储 器 中 的 过 程 叫 作 寄 存 器 浴 出 (spilling)。 

根据 硬件 设计 原则 2， 存储 器 一 定 比 寄存 器 慢 ， 因 为 寄存 器 数量 更 少 。 事 实 的 确 如 
此 ， 访 问 寄 存 器 中 的 数据 要 远 快 于 访问 存储 器 中 的 数据 。 

另外 ， 寄 存 器 中 的 数据 更 容易 利用 。 一 条 MIPS 算术 运算 指令 能 完成 读 两 个 寄存 器 、 
对 它们 进行 运算 以 及 写 回 运算 结果 的 操作 。 而 一 条 MIPS 数据 传送 指令 只 能 完成 读 一 个 操 
作 数 或 写 一 个 操作 数 的 操作 ,并且 不 能 对 它们 进行 运算 。 

寄存 器 与 存储 器 相 比 ,访问 时 间 短 、 吞 吐 率 高 ， 寄 存 器 中 的 数据 访问 速度 快 并 易于 利 
用 ,访问 寄存 琶 相 对 于 访问 存储 器 功 耗 更 小 。 因 此 ， 为 了 获得 高 性 能 和 节约 功 耗 ， 指 令 集 
的 体系 结构 必须 拥有 足够 的 寄存 器 ， 并 且 编 译 器 必须 高 效率 地 利用 这 些 寄 存 器 。 


2. 3.2 常数 或 立即 数 操作 数 


程序 中 经 常会 在 某 个 操作 中 使 用 到 常数 一 一 例如 ， 将 数组 的 下 标 加 1， 用 以 指向 下 一 个 数 
组 元 素 。 实 际 上 ， 在 运行 SPEC CPU 2006 测试 基准 程序 集 时 ， 有 超过 一 半 的 MIPS 算术 运算 指 
令 会 用 到 常数 作为 操作 数 。 

仅 从 已 介绍 过 的 指令 看 ， 如 果 要 使 用 常数 必须 先 将 其 从 存储 器 中 取出 。( 常数 可 能 是 在 程 
序 被 加 载 时 放 和 人 存储 器 的 -) 例如 ， 要 使 寄存 器 $s3 加 4， 可 以 使 用 下 面 的 代码 : 


[L69 


[70_ 


[72 | 


48 | 第 2 章 





lw $t0, AddrConstant4($s1)  # $t0 = constant 4 
add $s3,$s3,$t0 # $s3 = $s3 + $t0 ($t0 == 4) 


假设 $sl +Addrconstant4 是 常量 4 的 存储 器 地 址 。 

避免 使 用 取 数 指令 的 另 一 方法 是 ， 提 供 其 中 一 个 操作 数 是 常数 的 算术 运算 指令 。 这 种 有 一 
个 常数 操作 数 的 快速 加 法 指令 叫 作 加 立即 数 (add immediate) ,或 者 写成 addi。 这 样 ， 上 述 操 
作 只 需 写成 : 

addi $s3,$s3,4 # $s3 = $s3 + 4 

常数 操作 数 出 现 频率 高 ， 而 且 相 对 于 从 存储 器 中 取 常 数 ， 包 含 常 数 的 算术 运算 指令 执行 速 
度 快 很 多 ， 并 且 能 耗 较 低 。 

常数 0 还 有 另外 的 作用 ， 有 效 使 用 它 可 以 简化 指令 集 。 例 如 ， 数 据 传送 指令 正好 可 以 被 视 
作 一 个 操作 数 为 0 的 加 法 。 因 此 ，MIPS 将 寄存 器 $zero 恒 置 为 0。 (此 寄存 器 编号 也 为 0。) 
根据 使 用 频率 来 确定 要 定义 的 常数 是 加 速 大 概率 事件 的 另 一 个 好 办 法 。 


印 | 小 测验 
根据 寄存 器 的 重要 性 ， 芯 片 中 寄存 器 数目 随时 间 的 增长 率 符合 下 面 哪 种 情况 ? 
1. 非常 快 : 像 摩尔 定律 一 样 快 ， 该 定律 预测 ， 芯 片上 的 晶体 管 数目 每 18 个 月 翻 一 番 。 
2. 非常 慢 : 由 于 程序 是 通过 计算 机 语言 实现 的 ， 而 指令 集体 系 结构 具有 惯性 ， 因 此 寄存 
器 数目 的 增长 要 与 新 指令 集 的 可 行 性 保持 一 致 


邯 ] 精 解 虽然 本 书 中 讲 到 的 MIPS 寄存 器 都 是 32 位 的 ， 但 是 也 有 64 位 版 本 的 MIPS 指令 集 ， 
它 具有 32 个 64 位 的 寄存 器 。 为 了 加 以 区 分 ， 分 别 将 它们 称 为 MIPS-32 和 MIPS-64。 在 本 
章 中 ， 我 们 使 用 MIPS-32 的 子 集 。 附 录 下 中 介绍 了 MIPS-32 和 MIPS-64 的 区 别 。2. 16 节 和 
2. 18 节 介绍 了 ARMV7 的 32 位 地 址 和 ARMv8 的 64 位 地 址 之 间 更 多 显著 的 差别 。 

邯 ] 精 解 MIPS 中 偏 移 量 加 基 址 寄存 器 的 寻 址 方式 非常 适合 数组 和 结构 ， 因 为 基 址 寄存 器 可 
指向 结构 的 首 地 址 ， 偏 移 量 可 用 于 选择 所 需 的 数据 元 素 。 在 2. 13 节 中 我 们 将 看 到 这 样 的 
例子 。 

车 | 精 解 最初 设 计数 据 传 送 指令 时 ， 基 址 寄存 器 用 于 保存 数组 下 标 ， 而 偏 移 量 用 来 标示 数组 
的 起 始 地 址 。 因 而 基 址 寄存 器 也 叫 作 下 标 寄存 器 (index register) 。 现 在 ， 存 储 器 容量 大 大 
增加 ， 数 据 分 配 的 软件 模型 也 更 为 复杂 ， 所 以 数组 的 基地 址 通常 放 在 寄存 器 中 。 如 同 下 面 
将 要 看 到 的 那样 ， 基 地 址 可 能 由 于 过 大 而 不 适宜 用 偏 移 量 表示 。 

号 精 解 由 于 MIPS 支持 负 常数 ， 所 以 MIPS 中 不 需要 设置 减 立 即 数 的 指令 。 


2.4 有 符号 数 和 无 符号 数 


首先 让 我 们 快速 回顾 一 下 计算 机 是 如 何 表示 数 的 。 我 们 所 受 的 教育 是 以 十 进 制 为 基础 
的 ， 但 数 的 进 制 可 以 是 任意 的 。 例 如 ， 十 进 制 的 123 等 于 二 进 制 的 1111011 。 

在 计算 机 硬件 中 ， 数 是 以 一 串 或 高 或 低 的 电信 号 来 体现 的 ， 这 恰好 可 以 被 认为 是 基 为 2 的 
数 (与 基 为 10 的 数 称 为 十 进 制 数 一 样 ， 基 为 2 的 数 称 为 二 进 制 数 ) 。 

所 有 信息 都 由 二 进 制 数位 〈binary digit) 或 位 〈bit) 组 成 ， 因 此 二 进 制 数 运算 基本 单位 是 
bit， 取 值 可 以 是 两 种 状态 之 一 : 高 或 低 ， 开 或 关 ， 真 或 假 ，!1 或 0。 


”二 进 制 数位 : 也 称 二 进 制 位 ， 二 进 制 状态 之 一 ， 即 0 或 1， 是 信息 的 基本 组 成 单位 。 
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推广 到 任意 进 制 , 第 i 位 4 的 值 是 
d x Base’ 

这 里 , i 是 从 0 开始 并 且 从 右 向 左 递增 。 显 而 易 见 ， 计 算 一 个 数 各 位 数值 的 方法 是 使 用 寡 。 
我 们 在 十 进 制 数 的 右 下 角 写 上 10， 在 二 进 制 数 的 右 下 角 写 上 2。 例如， 

1011, 

表示 
(1 x 23) + (0 x 2) + (1 x 2) + (1 x 2°),, 
(Ix8) +(0x4) + (x2) + (1x1) 

8 + 0 4 2 0 
ll 


在 一 个 32 位 的 字 中 ， 我 们 从 右 向 左 标记 各 位 为 0，1，2，3…， 下 面 的 图 片 表示 了 MIPS 字 
中 每 一 位 的 编号 和 数字 1011, 的 存放 位 置 。 


31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 1110 9 8 7 6 5 4 3 2 1 0 


ooooleoooleoeooleoeooleoooleoeoeoleooeolieil 


(32 位 宽 ) 
由 于 字 是 在 水 平 或 垂直 方向 上 书写 的 ， 用 最 左边 或 最 右边 表示 大 小 带 有 不 确定 性 ， 因 此 采 
用 最 低 有 效 位 (least significant bit) 表示 最 右边 的 一 位 (上 图 中 的 第 0 位 ) ， 最 高 有 效 位 most 
significant bit) 表示 最 左边 的 一 位 (上 图 中 的 第 31 位) 。 


忆 ” 最低 有 效 位 : 在 MIPS 字 中 最 右边 的 一 位 。 
”最 高 有 效 位 : 在 MIPS 字 中 最 左边 的 一 位 。 


MIPS 的 字 有 32 位 ， 可 以 表示 2 个 不 同 的 32 位 模式 。 很 自然 就 可 以 使 这 些 组 合 表示 从 0 
到 2”-1 (4 294 967 295") 之 间 的 数 : 

0000 0000 0000 0000 0000 0000 0000 0000，= 

0000 0000 0000 0000 0000 0000 0000 0001，= 1 

0000 0000 0000 0000 0000 0000 0000 0010，= 














10 
10 


1111 131i 31111 1111 111i 1111 1111 11015 = .294,967,293. 
1111 IT 1111 T1111 HU 1111 1111 1110, =*4,294,967.294 
LI Tal T1111 4131 1111 T1111 111l T1114] = 4,294.907 205: 


如 下 式 ，32 位 的 二 进 制 数字 也 可 以 表示 成 每 位 的 值 乘 以 该 位 对 应 的 2 的 寡 次 的 形式 (这 
里 xi 表示 数字 x 的 第 i 位 ): 
(x31 x 2 ) + (x30 x 2”7) + (x29 x22) + + (xl x2') + (x0 x2") 
在 稍 后 我 们 将 看 到 ， 由 于 一 些 原 因 ， 这 些 正 数 被 称 为 无 符号 数 。 


即 | 硬件 /软件 接口 ”二进制 对 人 类 来 说 不 是 自然 的 计数 方法 ， 我 们 有 10 个 手指 头 ， 所 以 我 们 
自然 会 采用 十 进 制 数 。 为 什么 计算 机 不 使 用 十 进 制 呢 ? 事实 上 ， 第 一 台 商用 计算 机 确实 提 
供 了 十 进 制 算术 。 问 题 在 于 计算 机 仍然 采用 开关 信号 ， 所 以 一 个 十 进 制 数 将 由 几 个 二 进 制 
数 来 表示 。 事 实证 明 十 进 制 效 率 很 低 ， 所 以 后 来 的 计算 机 都 转向 了 二 进 制 ， 只 有 在 相对 很 
少 发 生 的 1VO 事件 中 才 将 数据 转换 成 十 进 制 。 


需要 注意 的 是 ， 上 式 是 二 进 制 数 的 一 般 表 示 。 实 际 上 ， 数 是 由 无 穷 多 的 位 组 成 的 ， 其 中 除 
了 最 右边 的 少数 位 以 外 其 余 大 部 分 都 是 0。 正 常情 况 下 不 用 表示 左边 的 0。 

硬件 可 以 对 这 些 二 进 制 数 进行 加 、 减 、 乘 、 除 操作 。 如 果 操 作 结 果 不 能 被 最 右 端的 硬件 位 
所 表示 ， 那 么 就 发 生 了 溢出 (overlow) 。 如 何 处 理 溢出 是 由 编程 语言 、 操 作 系统 和 程序 来 决 
定 的 。 


[74 | 
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计算 机 程序 对 正 数 和 负数 都 要 进行 计算 ， 所 以 需要 一 种 方法 来 区 分 正 数 和 负数 。 显 而 易 见 的 
解决 方案 是 增加 一 个 独立 的 符号 位 ， 这 种 表示 方法 称 为 符号 和 幅 值 (sign and magnitude) 表示 法 。 

符号 和 幅 值 表示 法 有 若干 缺点 。 首 先 ， 符 号 位 放 在 哪里 不 够 明确 ， 放 在 右边 还 是 左边 ? 早 
期 的 计算 机 对 两 种 方法 都 尝试 过 。 其 次 ， 因 为 不 可 能 在 计算 时 提前 得 知 结果 的 符号 ， 对 于 符号 
和 幅 值 表示 的 数 进行 计算 需要 额外 的 一 步 来 设置 符号 。 最 后 ,一 个 单独 的 符号 位 意味 着 在 符号 
和 幅 值 表示 的 数 中 不 但 有 正 零 而 且 还 有 负 零 ， 这 将 给 粗心 的 程序 员 带 来 问题 。 这 些 缺 点 导致 这 
种 表示 方法 很 快 就 被 放弃 了 。 

在 研究 更 具 吸 引力 的 替代 方案 时 产生 了 这 样 一 个 问题 ， 当 我 们 试图 用 一 个 较 小 的 数 减 去 一 
个 较 大 的 数 时 ， 无 符号 数 表示 方法 的 结果 将 会 是 什么 ? 答案 是 较 小 的 数字 将 会 从 前 面 的 0 中 借 
位 ， 所 有 结果 中 前 面 的 位 都 变 成 了 一 串 1。 

在 没有 其 他 明显 更 好 选择 的 情况 下 ， 最 终 的 解决 方案 是 选择 一 种 易于 硬件 实现 的 表达 方 
式 : 前 导 位 为 0 表示 正 数 ， 前 导 位 为 1 表示 负数 。 这 种 常用 的 表示 有 符号 二 进 制 数 的 方法 称 为 
二 进 制 补 码 (two' s complement)。 例 如 : 

0000 0000 0000 0000 0000 0000 0000 0000, 


= 0 
0000 0000 0000 0000 0000 0000 0000 0001， = ln 
0000 0000 0000 0000 0000 0000 0000 0010， = cal 
O111 1111 1111 1111 1111 1111 1111 1101, 2,147 ,483 ,645i。 
D111 T1111 T1111 T1411 1111 T1111 1111 LILLO; 2,147 ,483,646., 
OPIY, TIL LLL LEE TLL Ll LEY Wil 2,147 ,483,6471, 


1000 0000 0000 0000 0000 0000 0000 0000, 
1000 0000 0000 0000 0000 0000 0000 0001， 
1000 0000 0000 0000 0000 0000 0000 0010， 


-2,147,483,648, 
-2,147,483,647,, 
-2,147,483,6461, 


和 NE 


1111 1111 T1111 L111 1111 T1141 1111 1101, 
1111 L111 41111 111T 111Y .141 1111 T1110; 
LLL LILLE 11 LLL TLL TIL A LE1, = 


上 面 的 数字 中 一 半 是 正 数 ， 从 0 ~2 147 483 647,。(2” -1) ， 这 些 数字 的 表示 方式 与 之 前 是 
一 样 的 。 紧 接着 的 1000…0000, 表 示 最 小 的 负数 -2 147 483 648,。( -2”)。 而 后 是 按照 绝对 值 
递减 的 负数 : 从 -2 147 483 647,。(1000…0001,) 到 -1。(1111…1111,) 。 

二 进 制 补 码 中 的 最 小 负数 -2 147 483 648,o 没 有 相应 的 正 数 与 之 对 应 。 这 种 不 平衡 同样 也 会 
为 粗心 的 程序 员 带 来 烦恼 ,但 相 比 符号 和 幅 值 方法 ， 该 方法 不 会 对 程序 员 和 硬件 设计 人 员 造 成 
困扰 。 因 此 ， 现 在 所 有 计算 机 都 采用 二 进 制 补 码 方法 来 表示 有 符号 数 。 

采用 二 进 制 补 码 方法 的 优点 在 于 所 有 负数 的 最 高 有 效 位 都 是 1。 硬件 只 需 检测 这 一 位 就 可 
以 知道 一 个 数 是 正 数 还 是 负数 (这 一 位 为 0 表示 是 正 数 ) 。 因 此 ， 这 个 位 通常 叫 作 符号 位 。 在 
理解 了 符号 位 之 后 ， 就 可 以 使 用 2 的 宕 次 的 方式 来 表示 正 的 和 负 的 32 位 数 : 

(x31 x— 22) +(x30 x22) + (x29 x27) + + (xl x2') + (x0 x2°) 

符号 位 被 -2" 乘 ,其 余 的 位 仍 按 前 面 的 方法 计算 。 


Le 
1 
Lee) 


外 | 例题 二进制 到 十 进 制 的 转换 
下 面 这 个 用 32 位 二 进 制 补 码 表示 的 数 对 应 的 十 进 制 数 是 多 少 ? 


Till L111 T1171 Jl U1 ILil 1111 11003 


0 答案 
将 数 的 位 值 代用 上 面 的 公式 : 
(1x (-22)) + (1x2”) + (1x223) +…+ (1x22) + (0x2') + (0x2°) 
= + Pp 2 + 0 + 0 
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= -2147 483 648,, +2 147 483 644 。 


后 面 将 给 出 从 负数 转换 为 正 数 的 捷径 。 0 


就 像 无 符号 数 的 操作 结果 可 能 超过 硬件 允许 的 容量 而 发 生 溢出 一 样 ， 对 二 进 制 补 码 数 的 操作 也 
可 能 发 生 溢出 。 滋 出 发 生 在 有 限 二 进 制 数 最 左边 的 符号 位 与 采用 无 穷 多 位 表示 该 数 时 左边 位 的 值 不 
同 的 情况 下 〈 即 符号 位 不 正确 ) : 该 数 是 负数 时 符号 位 是 0， 或 该 数 是 正 数 时 符号 位 是 1。 


加 硬件 /软件 接口 ”和 算术 运算 一 样 ， 对 取 数 指令 来 说 有 符号 数 和 无 符号 数 是 有 区 别 的 。 取 
回 有 符号 数 后 需要 使 用 符号 位 填充 寄存 器 的 所 有 剩余 位 ， 称 为 符号 扩展 ， 但 其 目的 是 在 寄 
存 器 中 放 入 数字 正确 的 表示 方式 。 取 回 无 符号 数 只 是 简单 地 用 0 来 填充 数据 左 侧 的 剩余 
位 ， 因 为 这 种 表示 形式 的 数 是 没有 符号 的 。 

当 把 32 位 的 字 加 载 到 32 位 的 寄存 器 中 时 ， 上 面 的 讨论 是 没有 意义 的 ， 因 为 无 符号 数 
和 有 符号 数 的 加 载 是 完全 一 样 的 。MIPS 提供 了 两 种 字 节 加 载 的 方法 : 一 种 是 用 于 字 节 加 
载 的 1b (load byte)，lb 将 字 节 看 作 有 符号 数 ， 使 用 符号 扩展 来 填充 寄存 器 的 左 侧 24 位 ; 
另 一 种 是 用 于 无 符号 整数 加 载 的 Ipu (load byte unsigned) 。 由 于 C 程序 几乎 都 是 使 用 字 节 
来 表示 字符 ， 很 少 用 来 表示 有 符号 短 整 数 (short signed integers) ， 所 以 实际 中 几乎 所 有 字 
节 加 载 都 使 用 lbu。 

车 硬件 /软件 接口 与 上 面 所 讨论 的 数 不 同 ， 存储 器 地 址 很 自然 地 从 0 开始 一 直 连 续 增 加 到 
最 大 的 地 址 。 换 言 之 ， 负 地 址 是 没有 意义 的 。 因 此 ， 程 序 有 时 需要 处 理 一 些 可 以 是 正 也 可 
以 是 负 的 数 ， 有 时 需要 处 理 一 些 仅 能 是 正 的 数 。 一 些 编程 语言 反映 了 这 个 区 别 。 例 如 ，C 
语言 将 前 者 叫 作 整 数 (int) 而 后 者 叫 作 无 符号 整数 (unsigned int)。 一 些 C 编程 风 
格 的 指导 书 甚至 推荐 用 signed int 来 声明 前 一 种 数 ， 以 使 区 别 更 加 明显 。 


我 们 来 看 两 种 处 理 二 进 制 补 码 数 的 简单 方法 。 第 一 种 是 对 二 进 制 补 码 数 取 反 的 快速 方法 。 
简单 对 每 一 位 取 反 ,0 变 成 1，1 变 成 0， 然 后 对 结果 加 1。 这 种 方法 是 基于 这 样 的 事实 ， 一 个 
数 和 它 按 位 取 反 的 结果 相 加 ， 和 一 定 是 111…111,， 即 -1。 因 此 x+x= -1, 即 x*+x+1=0 或 
x+1 = -x。( 我 们 使 用 x 表示 将 x 的 每 位 取 反 ) 。 


邯 ] 例题 求 反 的 捷径 
对 2, 求 反 ， 然 后 通过 对 -2w 求 反 来 对 结果 进行 检查 。 
本 | 答案 


2,,。 =0000 0000 0000 0000 0000 0000 0000 0010, ， 求 反 就 是 将 这 个 数 按 位 取 反 再 加 1: 


11111111 1111111111111111 1111 1101; 
1 


十 


2 


= L111TLLILLL 11 L111 L111 L111 .1110; 


tT TTL F111 LLL TEL Ll LILL 1110; 


也 按 位 取 反 再 加 1: 


日 ”此 公式 从 右 往 左 第 3 项 为 1x2*， 原 书 中 为 1 x2' ， 原 书 有 误 。 一 一 译 者 注 


[76 | 





L77 


L78 | 
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0000 0000 0000 0000 0000 0000 0000 0001。 


1 


十 





0000 0000 0000 0000 0000 0000 0000 0010; 
Ss DOD 


第 二 种 方法 用 于 将 一 个 用 位 表示 的 二 进 制 数 转 化 成 一 个 用 多 于 位 表示 的 数 。 例 如 ， 在 
取 数 、 存 数 、 分 支 、 加 、 小 于 则 置 位 等 指令 中 的 立即 数字 段 包含 一 个 二 进 制 补 码 表示 的 16 位 
数 ， 表 示 从 -32768。( -2 ) 到 32767。(2 -1)。 为 了 将 这 个 立即 数字 段 加 到 一 个 32 位 的 
寄存 器 ， 计 算 机 必须 将 这 个 16 位 的 数 转换 成 数值 上 相等 的 32 位 的 数 。 这 种 方法 就 是 将 原 有 的 
16 位 数 简单 复制 到 32 位 新 数 的 低 16 位 ， 其 最 高 有 效 位 〈 符 号 位 ) 则 以 复制 的 方式 填 满 新 数 
的 高 16 位 。 这 种 方法 通常 叫 作 符号 扩展 (sign extension ) 。 


苇 | 例题 . 符号 扩展 的 方法 
将 2 和 -2 从 16 位 二 进 制 数 转换 为 32 位 二 进 制 数 。 


本 答案 

2 的 16 位 二 进 制 表示 形式 是 

0000 0000 0000 0010, = 210 

将 这 个 数 转化 成 32 位 数 的 方法 是 : 将 最 高 有 效 位 (0) 复制 16 次 放 到 32 位 字 的 左 半 部 。 
右 半 部 的 16 位 保持 原 16 位 的 值 : 


0000 0000 0000 0000 0000 0000 0000 0010,= 210 


使 用 前 面 介 绍 的 方法 对 2 的 16 位 二 进 制 数 求 反 。 于 是 ， 
0000 0000 0000 0010, 

变 成 
11111111 1111 1101, 


十 12 





= 11111111 1111 1110， 

将 该 求 反 结 果 转 换 为 32 位 数 的 方法 就 是 将 符号 位 复制 16 次 放 到 32 位 字 的 左 半 部 : 

1111 1111 1111 1111 1111 1111 1111 1110, -= -2 O 
这 种 方法 之 所 以 正确 ， 是 因为 二 进 制 补 码 表示 的 正 数 实际 上 在 左 侧 有 无 限 多 个 0， 而 负数 


在 左 侧 有 无 限 多 个 1。 只 是 为 了 适应 硬件 的 宽度 ， 数 的 前 导 位 被 隐藏 了 ， 符 号 扩展 只 是 简单 地 
恢复 了 其 中 一 部 分 。 


小 结 
本 节 的 主要 内 容 是 如 何在 给 定 的 计算 机 字 长 中 表示 正 整 数 和 负 整 数 。 虽 然 各 种 表示 方法 都 
有 各 自 的 优 缺 点 ， 但 从 1965 年 以 来 大 多 数 计算 机 都 采用 了 二 进 制 补 码 方法 。 


著 ] 精 解 ”因为 带 符号 十 进 制 数 没 有 长 度 的 限制 ， 所 以 常用 “ - ”来 表示 负数 。 而 在 给 定 二 
进 制 或 十 六 进 制 〈 见 图 2-4) 字 长 的 情况 下 ， 可 以 将 符号 编码 到 位 串 中 ， 因 此 通常 不 使 用 
“+” 和 “- ”来 表示 二 进 制 或 十 六 进 制 数 。 


团 小 测验 
下 面 这 个 64 位 二 进 制 补 码 数 对 应 的 十 进 制 数 是 多 少 ? 
1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1000， 
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1) = 
2) -8 
3) -16， 


4) 18 446 744 073 709 551 609 ， 


问 


精 解 ”二 进 制 补 码 的 得 名 来 自 下 述 规 则 : 一 个 n 位 的 数 与 它 的 相反 数 做 无 符号 加 法 ,结果 
是 2n， 因 此 ,x 的 相反 数 -x 的 二 进 制 补 码 表 示 是 2n 一 x。 

除了 “二 进 制 补 码 ”和 “符号 和 幅 值 ”这 两 种 表示 法 以 外 ， 第 三 种 可 选 的 表示 法 是 所 
请 的 “ 反 码 ”(one’s complement) 。 在 反 码 中 ， 一 个 数 的 相反 数 就 是 将 这 个 数 的 每 一 位 按 位 
取 反 ,0 变 成 1，1 变 成 0， 这 也 是 这 种 表示 法 名 字 的 由 来 。 在 反 玛 中 x 的 相反 数 是 2" -x 一 1。 
与 符号 和 幅 值 表示 法 相 比 ， 反 码 在 菜 些 方面 是 一 个 更 好 的 解决 方案 ， 因 此 一 些 早期 用 于 科学 
计算 的 计算 机 采用 这 种 表示 法 。 与 补 码 相 比 ， 反 码 除 了 有 2 个 零 以 外 ， 其 佘 都 是 相似 的 。 其 
中 正 0 是 00…00,,， 负 0 是 11…11,。 绝 对 值 最 大 的 负数 ( 即 最 小 的 负数 ) 是 10…000,， 它 表 
示 一 2147 483 647,。 ， 所 以 正 数 和 负数 的 个 数 是 平衡 的 。 当 采用 反 码 时 ， 加 法 器 需要 一 个 额外 
的 步骤 减 去 一 个 数 来 修正 结果 - 因此 ,现在 的 计算 机 中 补 码 方 法 占据 了 统治 地 位 。 

第 3 章 将 介绍 一 种 浮 点 数 的 表示 法 。 其 中 ,最 小 的 负数 用 00…000, 表 示 ， 最 大 的 正 数 
用 11…11, 表 示 , 0 一 般 用 10…00, 表 示 。 因 为 它 通过 将 数 加 一 个 偏 移 使 其 具有 非 负 的 表示 
形式 ， 所 以 称 为 偏 移 表 示 法 (biased notation ) 。 


了 反 码 : 使 用 10…000, 表 示 最 小 负数 ，01…11, 表 示 最 大 正 数 ， 正 数 和 负数 的 数量 相同 ， 但 保留 两 
个 零 ， 一 个 正 零 (00…00, ) ， 一 个 负 零 (11…11, ) 。 这 种 方法 也 用 来 表示 按 位 求 反 ， 即 0 置 为 
1,， 1 置 为 0。 


全 偏 移 表 示 法 : 最 小 的 负数 用 00…000; 表 示 ， 最 大 的 正 数 用 11…11: 表 示 ，0 一 般 用 10…00， 
表示 ， 即 通过 将 数 加 一 个 偏 移 使 其 具有 非 负 的 表示 形式 。 
2.5 计算 机 中 指令 的 表示 


人 操作 计算 机 的 方式 与 计算 机 看 到 指令 的 方式 是 不 同 的 ， 现 在 我 们 就 可 以 来 解释 其 差 
别 了 。 

指令 在 计算 机 内 部 是 以 若干 或 高 或 低 的 电信 号 的 序列 表示 的 ， 并且 形式 上 和 数 的 表示 相 
同 。 实 际 上 ， 指 令 的 各 部 分 都 可 看 成 一 个 独立 的 数 ， 将 这 些 数 拼接 在 一 起 就 形成 了 指令 。 

因为 几乎 所 有 的 指令 中 都 要 用 到 寄存 器 ， 所 以 必须 有 一 套 规定 ， 以 将 寄存 器 名 字 映 射 成 数 
字 。 在 MIPS 汇编 语言 中 ， 寄 存 器 $s0 ~ $s7 映射 到 寄存 器 16 ~23 ， 同 时 ， 寄 存 器 $t0 ~ $t7 
映射 到 寄存 器 8 ~ 15。 因 此 ，$ s0 表示 寄存 器 16，$ sl 表示 寄存 器 17，$ s2 表示 寄存 器 
18.……… $t0 表 示 寄 存 器 8，S$til 表示 寄存 器 9， 依 次 类 推 。 在 下 面 几 节 中 ， 我们 将 介绍 32 个 寄 
存 器 中 其 余 寄存 器 的 映射 


车 例题 将 一 条 MIPS 汇编 语言 指令 翻译 成 一 条 机 器 指令 
下 面 以 MIPS 汇编 语言 为 例 。 对 于 符号 表示 为 


add $t0,$sl,.$s2 
的 MIPS 指令 ， 首 先 给 出 其 十 进 制 数 表示 形式 ， 接 着 给 出 其 二 进 制 数 表示 形式 。 
著 答案 

其 十 进 制 表示 为 

[ 0 | 47 18 | 8 | 0 32 
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机 器 指令 分 为 若干 字段 〈field) 。 本 例 中 第 一 个 字段 和 最 后 一 个 字段 (0 和 32) 组 合 起 来 
告诉 MIPS 计算 机 该 指令 要 完成 加 法 运算 。 第 二 个 字段 表示 加 法 的 第 一 个 源 操作 数 寄存 器 号 
(17 = $sl) ， 第 三 个 字段 表示 加 法 的 另 一 个 源 操作 数 寄存 器 号 (18 = $s2 ) 。 第 四 个 字段 表示 
存放 运算 结果 的 目的 寄存 器 号 (8 = $t0 ) 。 第 五 个 字段 在 这 条 指令 中 没有 用 到 ， 故 置 为 0。 这 
样 ， 这 条 指令 将 寄存 器 $sl1 和 寄存 器 $s2 内 容 相 加 ， 并 将 和 放 在 寄存 器 $t0 中 。 

这 条 指令 也 可 以 表示 成 二 进 制 的 形式 : 

000000 | 10001 | 10010 | 01000 00000 | 100000 
6 位 5 位 5 位 5 位 5 位 6 位 OD 


指令 的 布局 形式 叫 作 指令 格式 (instruction format) 。 从 位 的 数目 可 以 看 出 ，MIPS 指令 占 32 
位 ， 与 数据 字 的 位 数 相 等 。 为 遵循 简单 源 于 规整 的 原则 ， 所 有 MIPS 指令 都 是 32 位 长 。 

为 了 将 它 与 汇编 语言 区 分 开 来 ， 把 指令 的 数字 形式 称 为 机 器 语言 ( machine language) ， 这 
样 的 指令 序列 叫 作 机 器 码 (machine code) 。 


全 ”指令 格式 二 进 制 数字 段 组 成 的 指令 表示 形式 。 
人 机 器 语言 : 在 计算 机 系统 中 用 于 交流 的 二 进 制 表示 形式 。 


为 避免 读 写 元 长 乏味 的 二 进 制 字 串 ， 可 采用 比 二 进 制 基数 更 大 , 但 又 易 转 化 为 二 进 制 的 表 
示 形 式 来 表示 。 由 于 几乎 所 有 计算 机 的 数据 大 小 都 是 4 的 整数 倍 ， 因 此 十 六 进 制 ( hexadeci- 
mal) 表示 形式 变 得 很 流行 。16 是 2 的 4 次 宕 ， 因 此 可 以 很 简单 地 通过 将 每 4 位 二 进 制 数 蔡 换 
为 1 位 十 六 进 制 数 来 完成 二 进 制 到 十 六 进 制 的 转换 ， 反 之 亦 然 。 图 2-4 给 出 了 十 六 进 制 和 二 进 
制 之 间 的 转化 表 。 

















”十 六 进 制 : 基数 为 16 的 数 。 




















图 2-4 十 六 进 制 和 二 进 制 转换 表 。 可 以 简单 地 把 1 位 十 六 进 制 数 蔡 换 为 相应 的 4 位 二 进 制 数 ， 反 之 亦 
然 。 如 果 二 进 制 数 的 位 数 不 是 4 的 整数 倍 ， 转 化 要 从 右 往 左 进行 


为 了 避免 处 理 不 同 进 制 数 时 产生 混淆 ， 此 处 约定 十 进 制 数 加 下 标 10 ， 二 进 制 数 加 下 标 2， 
十 六 进 制 数 加 下 标 16。 (如果 没 有 下 标 ， 那 么 默认 为 十 进 制 。) 顺便 说 明 ，C 和 Java 中 用 符号 
0xnnnn 来 表示 十 六 进 制 数 。 


了 | 例题 二进制 和 十 六 进 制 间 的 转换 
将 下 面 的 十 六 进 制 数 转化 成 二 进 制 数 ， 二 进 制 数 转化 成 十 六 进 制 数 : 


eca8 6420,, 
0001 0011 0101 0111 1001 1011 1101 1111, 


著 ] 答案 


按 图 2-4 所 示 十 六 进 制 -二 进 制 转 换 表 查 表 得 : 


eca8 6420,。 


1110 1100 1010 1000 0110 0100 0010 0000， 


从 二 进 制 到 十 六 进 制 的 转换 : 
0001 0011 0101 0111 1001 1011 1101 1111; 


1357 9bdf', 0 


MIPS 字段 
为 了 使 讨论 变 得 简单 ， 给 MIPS 字段 命名 如 下 : 


op | rs | rt rd Es shamt funct 
6 位 5 位 5 位 5 位 5 位 6 位 

MIPS 指令 中 各 字段 名 称 及 含义 如 下 : 

。 op: 指令 的 基本 操作 ,通常 称 为 操作 码 (opcode) 。 

。 rs: 第 一 个 源 操 作 数 寄存 器 。 

。 rt: 第 二 个 源 操作 数 寄存 器 。 

。 rd: 用 于 存放 操作 结果 的 目的 寄存 器 。 











shamt: 位 移 量 。( 在 2.6 节 中 介绍 移 位 指令 和 该 术语 ， 在 此 之 前 ， 指 令 都 不 使 用 这 个 


字段 ， 故 此 字段 的 内 容 为 0.) 
。 funct: 功能 。 一 般 称 为 功能 码 (function code) ， 用 于 指明 op 字段 中 操作 的 特定 变 式 。 


”操作 码 : 指令 中 用 来 表示 操作 和 格式 的 字段 。 


当 某 条 指令 需要 比 上 述 字段 更 长 的 字段 时 ， 问 题 就 会 发 生 。 例 如 ， 取 字 指 令 必 须 指 定 两 个 
寄存 器 和 一 个 常数 。 在 上 述 格式 中 ， 如 果 地 址 使 用 其 中 的 一 个 5 位 字段 ， 那 么 取 字 指令 的 常数 
就 被 限制 在 2”( 即 32) 之 内 。 这 个 常数 通常 用 来 从 数组 或 数据 结构 中 选择 元 素 ， 所 以 它 常常 
比 32 大 得 多 。5 位 字段 因 太 小 而 用 处 不 大 。 

因此 ， 既 希望 所 有 指令 长 度 相同 ， 又 希望 具有 统一 的 指令 格式 ， 两 者 之 间 产 生 了 冲突 。 这 
就 引出 了 最 后 一 条 硬件 设计 原则 。 

设计 原则 3: 优秀 的 设计 需要 适宜 的 折 中 方案 。 

MIPS 设计 者 选择 这 样 一 种 折 中 方案 : 保持 所 有 的 指令 长 度 相同 ,但 不 同类 型 的 指令 采用 
不 同 的 指令 格式 。 例 如 ， 上 述 格式 称 为 R 型 (用 于 寄存 器 ) 。 另 一 种 指令 格式 称 为 1 型 (用 于 
立即 数 )， 立 即 数 和 数据 传送 指令 用 的 就 是 这 种 格式 。I 型 的 字段 如 下 所 示 : 


| op | rs rt constant or address 
5 位 


6 位 5 位 16 位 
16 位 的 地 址 字段 意味 着 取 字 指令 可 以 取 相 对 于 基 址 寄存 器 地 址 偏 移 上 2 ”或 者 32 768 个 字 
节 (+ 上 22 或 者 8192 个 字 ) 范围 内 的 任意 数据 字 。 类 似 地 ， 加 立即 数 指令 中 常数 也 被 限制 不 超 
过 + 上 25。 可 以 看 到 在 这 种 格式 下 ， 很 难 设置 32 个 以 上 的 寄存 器 ， 因 为 rs 和 字段 都 必须 增加 
额外 的 位 ， 这 样 就 导致 32 位 字 长 的 指令 很 难 满足 要 求 。 
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我 们 来 分 析 一 下 2. 3. 1 节 例 子 中 的 取 字 指令 : 

1w $t0,32($s3) # Temporary reg $t0 gets A[8] 

这 里 ，19 (寄存 器 $s3) 存放 于 rs 字段 ，8 (寄存 器 $t0) 存放 于 rt 字段 ，32 存放 于 ad- 
dress 字段 。 注 意 ， 对 于 这 条 指令 rt 字段 的 意思 已 经 改变 : 在 一 条 取 字 指令 中 ,rt 字段 用 于 指明 
接收 取 数 结果 的 目的 寄存 器 。 

虽然 多 种 指令 格式 使 硬件 变 得 复杂 ， 但 是 保持 指令 格式 的 类 似 性 仍 可 降低 复杂 度 。 例 如 ， 
R 型 和 1 型 格式 的 前 3 个 字段 长 度 相等 ， 并 且 名 称 也 一 样 ; 工 型 格式 的 第 四 个 字段 和 R 型 后 3 
个 字段 长 度 之 和 相等 。 

也 许 你 会 想到 ， 指 令 格式 可 以 由 第 一 个 字段 的 值 来 区 分 : 每 种 格式 在 第 一 个 字段 (op) 占 
有 不 同 的 值 区 间 ， 以 便 让 计算 机 硬件 知道 指令 后 半 部 分 是 三 字段 (R 型 ) 还 是 一 字段 (I 型 ) 。 
图 2-5 给 出 了 到 目前 为 止 已 使 用 过 的 MIPS 指令 的 每 个 字段 的 值 。 


ET 


add 








sub (subtract) 








add immediate 上 1 
lw (load word ) address 


sw (store word) . E address 











图 2-5 MIPS 指令 编码 。 在 上 表 中 ,，“reg” 代 表 寄 存 器 的 标号 (从 0~31)，,，“address” 表 示 16 位 地 址 ， 
“n. a. ”( not applicable) 表示 这 个 字段 在 该 指令 格式 中 不 出 现 。 注 意 ，add 和 sub 指令 具有 相同 
的 op 字段 值 ， 硬 件 根据 funct 字段 的 值 来 决定 所 进行 的 操作 : add (32) 或 substract (34) 


图! 例题 .将 MIPS 汇编 语言 翻译 成 机 器 语言 
现在 可 以 给 出 一 个 例子 来 描述 从 程序 员 所 编程 序 到 机 器 执行 指令 的 整个 转换 过 程 。 如 果 数 
组 A 的 基 址 存放 在 $tl 中 ，h 存放 在 $s2 中 ,下面 的 C 赋值 语句 : 


AL[300] = h + A[300]; 


被 编译 成 如 下 汇编 语言 : 
lIw  $t0,1200($t1) # Temporary reg $t0 gets A[300] 
add $t0,$s2,$t0  # Temporary reg $t0 gets h + A[300] 
sw  $t0,1200($t1) # Stores h + A[300] back into A[300] 


这 三 条 MIPS 指令 的 机 器 语言 代码 是 什么 ? 
苇 ] 答案 
为 方便 起 见 ， 先 使 用 十 进 制 数 表示 机 器 语言 指令 。 从 图 2-5 中 可 以 确定 这 三 条 机 器 语言 指令 : 


| 35 | | | 1200 | 
0 18 | 8 8 | 0 | 32 | 
- 43 里 9 | 8 1200 | 
指令 的 第 一 个 字段 (op) 值 为 35 ( 见 图 2-5)。 在 第 二 个 字段 (rs) 中 指定 基 址 寄存 器 
9 ( $t1)， 在 第 三 个 字段 (rt) 中 指定 目的 寄存 器 8 ( $t0 ) 。 在 最 后 一 个 字段 address 中 存放 
用 于 指定 A [300] 的 偏 移 量 (1 200 =300 x4) 。 


下 一 条 add 指令 由 第 一 个 字段 (op) 值 0 和 最 后 一 个 字段 (funct) 值 32 共同 确定 。 第 
三 、 四 字段 中 的 三 个 寄存 器 (18、8 和 8) 分 别 对 应 $s2、$t0 和 $t0。 
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sw 指令 由 第 一 个 字段 的 43 识别。 这 条 指令 的 其 他 部 分 和 lw 指令 完全 一 样 。 
与 上 述 十 进 制 形式 对 应 的 二 进 制 机 器 指令 如 下 所 示 (十 进 制 数 1200 用 二 进 制 表示 为 0000 
0100 1011 0000, ) : 


100011 01001 01000 0000 0100 1011 0000 
000000 10010 01000 01000 00000 | 100000 
101011 01001 01000 0000 0100 1011 0000 


” 注意 ,第 一 条 指令 和 最 后 一 条 指令 的 二 进 制 表示 非 常 相似 ， 唯 一 不 同 的 是 从 左边 数 第 3 位 。 
DOD 


加 ,硬件 /软件 接口 定 长 指令 的 需求 与 设置 尽 可 能 多 的 寄存 器 的 需求 矛盾 。 寄 存 器 数量 的 任 
何 增长 都 需要 在 指令 格式 中 的 各 个 寄存 器 字段 至 少 增加 1 位。 综合 考虑 这 些 限 制 和 越 小 越 
快 的 设计 原则 ， 当 今 的 大 多 数 指令 系统 中 有 16 个 或 32 个 通用 寄存 器 。 


图 2-6 归纳 了 本 节 讲 述 的 MIPS 机 器 语言 。 正 如 将 在 第 4 章 中 讲述 的 那样 ， 相 关 指 令 在 二 
进 制 表示 上 的 相似 性 可 简化 硬件 设计 。 这 种 相似 性 也 是 MIPS 体系 结构 规整 性 的 又 一 佐证 。 
MIPS 机 器 语言 


sub $sl, $s2, $s3 
addi $sli, $s2, 100 


lw $sl, 100( $s2) 
sw $sl1, 100( $s2) 









































































字 自 宽度 6 位 5 位 | 5 位 
Ra | Re ln Jr | 
| || aas | 数据 传送 指令 格式 


图 2-6 2.5 节 展 示 的 MIPS 体系 结构 。 到 目前 为 止 所 见 到 的 MIPS 指令 都 是 R 型 和 I 型 指令 。 所 有 指令 的 
前 16 位 都 是 相同 的 ， 都 包含 给 出 基本 操作 的 op 字段 ; 给 出 第 一 源 操作 数 的 rs 字段 ; 给 出 第 二 
源 操作 数 的 t 字段 ( 取 字 指 令 除 外 ， 在 取 字 指令 中 用 于 指定 目的 寄存 器 ) 。R 型 指令 将 最 后 16 
位 划分 为 3 个 字段 : rd 字段 指明 目的 寄存 器 ; shamt 字段 将 在 2.6 节 中 介绍 ;funct 字段 指明 R 型 
指令 的 特定 辅助 操作 。I 型 指令 将 最 后 16 位 合并 为 一 个 address 字段 


邯 | 重点 ”当今 计算 机 基于 以 下 两 个 重要 准则 构建 : 

1) 指令 用 数 的 形式 表示 。 

2) 和 数据 一 样 ， 程 序 存储 在 存储 器 中 ， 并 且 可 以 读 写 。 | 

这 些 原则 引出 存储 程序 (stored-program) 的 概念 ， 这 一 发 明 释 放 了 计算 机 的 巨大 洪 
力 。 图 2-7 显 示 了 存储 程序 的 强大 功能 。 特 别 地 ， 存 储 器 可 以 存放 编辑 器 程序 的 源 代 码 、 
与 之 对 应 的 编译 后 的 机 器 码 、 编 译 后 的 程序 需要 使 用 的 文本 ， 甚 至 用 于 生成 机 器 码 的 编 
译 器 。 

指令 表示 成 数 的 好 处 就 是 程序 可 以 被 当成 二 进 制 数 的 文件 发 行 。 商 业 上 的 意义 就 是 计 
算 机 可 以 延 用 那些 指令 集 兼容 的 现成 软件 。 这 种 “二 进 制 兼容 ”使 得 工业 界 围绕 着 几 种 
指令 集体 系 结构 形成 联盟 。 
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图 2-7 存储 程序 概念 。 各 类 存储 程序 允许 将 一 台 用 于 记 账 的 计算 机 转眼 间 变 成 一 台 可 以 帮助 作者 写 书 
的 计算 机 。 只 要 将 程序 和 数据 加 载 到 存储 器 中 并 告诉 计算 机 从 给 定 的 存储 器 地 址 开始 执行 程序 
即 可 。 将 指令 和 数据 以 相同 的 方式 处 理 ， 极 大 地 简化 了 计算 机 系统 的 存储 器 硬件 和 软件 。 尤 其 
是 用 于 数据 的 存储 技术 同样 也 适用 于 程序 ， 如 编译 器 ， 它 能 够 将 那些 用 易于 人 类 使 用 的 符号 编 
写 的 代码 翻译 成 机 器 能 理解 的 代码 


图 | 小 测验 
下 面 的 图 表 代 表 的 是 哪 条 MIPS 指令 ? 
op | mr | md | shamt | funot | 
0 8 9 


10 | 0 34 


























SU 0, 汗 臣 二 ， 囊 必 2 
add $t2, $t0, $t1 
Sub $t2, $t1, $tO 
sub $t2, $t0, $t1 


i 


2.6 逻辑 操作 


“ 正 相 反 ，” 叮 当 兹 接着 说 , “如果 那 是 真 的 ， 那 它 就 可 能 是 真 的 ; 录 果 那 曾 经 是 
真 的 ， 它 就 是 真 过; 但 是 说 然 现 在 它 不 是 真 的 ， 那 么 现在 它 就 是 假 的 。 这 就 是 远 辑 。” 
一 一 Lewis Carroll, 《爱丽 冀 漫 洲 仙 境 》，1865 

虽然 早期 的 计算 机 仅 对 整 字 进 行 操 作 ， 但 人 们 很 快 就 发 现 ， 对 字 中 由 若干 位 组 成 的 字段 其 
至 对 单个 位 进行 操作 是 很 有 用 的 。 例 如 ， 考 查 字 里 面 每 个 由 8 位 组 成 的 字符 ( 见 2.9 节 )。 于 
是 ， 编 程 语 言 和 指令 集体 系 结构 中 增加 了 一 些 指 令 ， 用 于 简化 对 字 中 若干 位 进行 打包 或 者 拆 包 
的 操作 。 这 些 指令 被 称 为 逻辑 操作 。 图 2-8 给 出 了 C、Java 和 MIPS 中 的 逻辑 操作 。 

| ”这 辑 操作 “| C 操作 符 | Java 操作 符 | MIPS 指令 | 





























左 移 << << S11 
右 移 >> >>> srl 
按 位 与 & & | and,andi 
按 位 或 | | | or,ori 
按 位 取 反 | B58 
图 2-8 C 和 Java 的 逻辑 操作 符 及 相应 的 MIPS 指令 。MIPS 使 用 一 个 操作 数 为 0 的 NOR 指令 实现 取 反 操作 


第 一 类 逻辑 操作 称 为 移 位 (shift) 。 它 们 将 一 个 字 里 面 的 所 有 位 都 向 左 或 向 右 移 动 ， 并 在 
空 出 来 的 位 上 填充 0。 例 如 ， 假 设 寄存 器 $s0 中 的 数据 是 : 


0000 0000 0000 0000 0000 0000 0000 1001， = 9 

一 条 左 移 4 位 的 指令 执行 后 ， 得 到 的 新 值 是 : 

0000 0000 0000 0000 0000 0000 1001 0000， = 144,, 

与 左 移 相 对 应 的 是 右 移 。 左 移 和 右 移 这 两 条 指令 在 MIPS 中 的 确切 名 字 是 逻辑 左 移 ( s11) 
和 逻辑 右 移 (sr1L1)。 下 面 的 指令 完成 的 就 是 上 述 操作 ， 假 设 源 操作 数 在 $s0 中 ， 结 果 存 储 到 
$t2 中 : 

sl1 $t2,$s0,4 # reg $t2 = reg $s0 << 4 bits 

前 面 介绍 R 型 指令 格式 时 没有 解释 shamt 字段 ， 它 在 移 位 指令 中 被 用 于 表示 移 位 量 (shift 
amount) 。 因 此 ， 上 述 指令 对 应 的 机 器 语言 是 : 


op rs rt rd shamt funct 
0 | 0 | 16 10 4 | 0 | 
指令 sl1 的 编码 在 op 字段 和 funct 字段 都 为 0，rd 为 10 (寄存 器 $t2)， rt 为 16 (寄存 器 
$s0 ) ，shamt 为 4，rs 字段 没有 使 用 ， 被 置 为 0。 
逻辑 左 移 还 有 额外 的 好 处 ， 就 是 左 移 i 位 就 相当 于 乘 以 2i:， 这 就 像 十 进 制 数 左 移 i 位 相当 
于 乘 以 10i。 例如， 上 面 的 s11 指令 左 移 了 4 位 ， 就 相当 于 乘 以 2 ( 即 16) 。 所 以 ， 原 二 进 制 
数 表示 的 值 是 9， 而 9 x16 =144， 恰 好 就 是 移 位 后 的 结果 。 
第 二 类 有 用 的 操作 是 按 位 与 (AND ) 。 该 操作 仅 当 两 个 操作 位 均 为 1 时 结果 才 为 1。 例 如 ， 
如 果 寄 存 器 $t2 的 值 为 : 


0000 0000 0000 0000 0000 1101 1100 0000，, 


寄存 器 $tl 的 值 为 : 


0000 0000 0000 0000 0011 1100 0000 0000， 


那么 ， 在 执行 下 面 的 MIPS 指令 后 
and $t0,$tl,$t2 # reg $t0 = reg $t] & reg $t2 


$t0 中 的 值 将 是 : 

0000 0000 0000 0000 0000 1100 0000 0000， 

AND 提供 了 一 种 将 源 操作 数 中 某 些 位 置 为 0 的 能 力 ， 前 提 是 另 一 个 操作 数 中 对 应 位 为 0。 
后 一 个 操作 数 传统 上 被 称 为 掩 码 (mask) ， 寓 意 其 可 “隐藏 ” 某 些 位 。 

与 AND 对 偶 的 操作 是 按 位 或 (0OR) 。 该 操作 在 两 个 操作 位 中 任意 一 位 为 1 时 结果 就 为 1。 
为 详细 说 明 ， 仍 假设 $t1 和 $t2 中 的 值 都 和 上 面 的 例子 一 样 ， 那 么 下 述 MIPS 指令 


or $t0,$tl,$t2 # reg $t0 = reg $tl | reg $t2 


执行 后 $t0 的 值 是 : 

0000 0000 0000 0000 0011 1101 1100 0000， 

最 后 一 类 逻辑 操作 是 按 位 取 反 (NOT) 。 该 操作 仅 有 一 个 操作 数 ,将 1 变 成 0, 0 变 成 1。 使 用 前 
面 的 符号 ， 它 可 用 来 计算 *。 为 了 保持 三 操作 数 的 格式 ，MIPS 的 设计 者 引入 或 非 NOR (NOT OR) 
指令 来 取代 NOT。 如 果 一 个 操作 数 是 0， 那 么 对 另 一 个 操作 数 而 言 ， 结 果 就 等 价 于 NOT: A NOR 0 = 
NOT (AOR0) =NOT (A)。 

如 果 寄 存 器 $tl 中 的 值 与 上 例 保 持 不 变 ， 寄 存 器 $t3 中 的 值 是 0， 那 么 下 面 MIPS 指令 


nor $t0,$tl,$t3 站 reg $t0 = ~ (reg $tl | reg $t3) 


在 寄存 器 $t0 中 的 执行 结果 是 : 


i111 1111 L111 air 1100 0011 i111 1111; 
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按 位 与 : 按 位 进行 与 操作 ， 仅 当 两 个 操作 位 均 为 1 时 结果 才 为 1。 
按 位 或 : 按 位 进行 或 操作 ， 当 两 个 操作 位 中 任意 一 位 为 1 时 结果 就 为 1。 
按 位 取 反 ， 按 位 进行 非 操作 ， 仅 有 一 个 操作 数 ， 将 1 变 成 0, 0 变 成 1。 
或 非 : 按 位 先 或 后 非 操作 ， 仅 当 两 个 操作 位 均 为 0 时 结果 才 为 1。 


4 (0 (4 


2-8 显示 了 C 和 Java 的 操作 符 与 MIPS 指令 之 间 的 关系 。 像 在 算术 运算 中 一 样 ， 常 数 在 
AND 和 OR 这 些 逻 辑 运 算 里 也 是 很 有 用 的 ， 因 此 MIPS 也 提供 了 立即 数 与 (andi) 和 立即 数 或 
(ori) 指令 。 常 数 在 NOR 中 出 现 得 很 少 ， 因 为 NOR 主要 功能 就 是 将 单 操 作 数 按 位 取 反 ， 因 此 ， 
MIPS 指令 集体 系 结构 没有 设计 支持 NOR 立即 数 的 版 本 。 


邯 | 精 解 ”MIPS 指令 全 集 也 包括 异 或 (XOR) ， 当 两 个 操作 数 对 应 位 不 同时 置 1， 相 同时 置 0。 
C 语言 允许 在 字 内 定义 由 若干 位 组 成 的 一 个 或 多 个 字段 ， 并 将 其 作为 对 象 包装 在 一 个 字 
内 ， 以 适应 如 1VO 设备 等 的 外 部 接口 需求 。 所 有 字段 必须 放 在 一 个 单字 之 中 ， 并 采用 无 符 
号 整数 。C 编译 器 使 用 MIPS 的 下 列 座 辑 指 令 插入 和 提取 字段 : and、or 、s11 以 及 srl。 

转 ] 精 解 在 与 立即 数 进行 逻辑 与 操作 和 逮 辑 或 操作 时 ， 立 即 数 的 高 16 位 补 0 后 形成 32 位 党 
数 进行 计算 ， 而 与 立即 数 做 加 法 运算 时 ， 将 立即 数 进行 符号 扩展 。 


印 ] 小 测验 
下 面 哪个 操作 可 以 将 字 中 的 一 部 分 分 离 出 来 ? 
1. AND 
2. 左 移 后 再 进行 右 移 


2.7 决策 指令 


自动 化 计算 机 的 实用 性 取决 于 重复 使 用 给 定 指令 序列 的 可 能 性 ， 重 复 的 次 数 取 决 

于 计算 的 结果 …… 这 一 选择 可 以 根据 骸 的 符号 来 决定 (计算 机 认为 0 是正 数 )。 因 此 ， 

我 们 引入 一 条 “ 指 今 ”( 条件 畦 移 “ 指 今 ”) ， 它 根据 给 定数 的 符号 从 两 条 路 径 中 选择 

正确 的 一 条 来 执行 。 

——Burks、 Goldstine von Neumann, 1947 

计算 机 与 简单 计算 器 的 区 别 在 于 决策 能 力 。 根 据 输 入 数据 和 计算 过 程 中 产生 的 值 ， 它 可 以 
执行 不 同 的 指令 。 程 序 语言 通常 使 用 过 语 句 描 述 决 策 ， 有 时 也 使 用 go to 语句 和 标签 。MIPS 汇 
编 语言 中 有 两 条 类 似 让 和 go to 语句 功能 的 指令 。 第 一 条 是 

beq registerl, register2?2, L1 

该 指令 表示 : 如 果 registerl 和 register2 中 的 数值 相等 ， 则 转 到 标签 为 L1 的 语句 执 
行 。 助 记 符 beq 代表 如 果 相 等 则 分 支 (branch if equal) 。 

第 二 条 指令 是 

bne registerl, register2?2, L1 

该 指令 表示 : 如 果 registerl 和 register2 中 的 数值 不 相等 ， 则 转 到 标签 为 L1 的 语 
句 执行 。 助 记 符 bne 代表 如 果 不 相等 则 分 支 (branch if not equal) 。 这 两 条 指令 传统 上 称 为 条 
件 分 支 (conditional branch) 指令 。 


已 ”条 件 分 支 : 该 指令 先 比较 两 个 值 ， 然 后 根据 比较 的 结果 决定 是 否 从 程序 中 的 一 个 新 地 址 开 
始 执行 指令 序列 。 
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图 1 例题， 将 if-then-else 语句 编译 成 条 件 分 支 指令 
在 下 面 这 段 代码 中 ，f、g、h、i、j 都 是 变量 ， 设 该 5 个 变量 依次 对 应 于 从 $s0 到 $s4 
的 寄存 器 ， 求 这 条 C 语言 让 语句 编译 后 形成 的 MIPS 代码 。 
if (i == j) f=g+h; else f=9g- h:; 
印 ] 答案 
图 2-9 是 MIPS 代码 执行 过 程 的 流程 图 。 第 一 个 表达 式 比较 i 和 j 是 否 相 等 ， 需 要 一 条 beq 
指令 。 通 常 ， 通 过 测试 分 支 的 相反 条 件 来 跳 过 让 语句 后 面 的 then 部 分 ， 代 码 的 效率 会 更 高 
(标签 Else 将 在 后 面 定义 ) 所 以 我 们 使 用 bne 指令 : 
bne $s3,$s4,Else # go to Else if i zj 





Exit: 


图 2-9 上 述 计 语句 的 程序 流程 图 。 左 边 方 框 对 应 许 语句 的 then- 部 分 ， 右边 方 框 对 应 主语 名 的 else 部 分 


下 一 个 赋值 语句 执行 一 个 单 操作 ， 如 果 所 有 的 操作 数 都 分 配给 寄存 器 ， 那 么 它 只 是 一 条 
指令 
$s0,$s1l1,$s2 # f=g+h (skipped if i <# j) 

在 这 语句 的 结尾 部 分 ,需要 引入 另 一 种 分 支 指令 ， 通 常 叫 作 无 条 件 分 支 指令 uncondition- 
al branch) 。 当 遇 到 这 种 指令 时 ， 程 序 必须 分 支 。 为 了 区 分 条 件 分 支 和 无 条 件 分 支 ，MIPS 将 无 
条 件 分 支 指令 命名 为 jump ， 简 写成 了 (标签 Exit 将 在 后 面 定 义 ) 。 

} Exit # go to Exit 

站 语句 中 else 部 分 的 赋值 语句 也 可 编译 成 一 条 指令 。 我 们 只 需 将 标签 Else 加 在 这 条 指令 
前 、 标 签 Exit 加 在 该 条 指令 后 面 ， 表 示 if-then-else 编译 的 代码 结束 : 

Else:sub $s0,$s1l,$s2 #f=g-h (skipped if i = j) 

Exit: 0 

注意 ， 就 像 汇编 器 完成 存 数 / 取 数 指令 的 数据 地 址 计算 一 样 ， 它 也 完成 分 支 指 令 的 地 址 计 
算 ， 这 使 得 编译 器 和 汇编 语言 程序 员 摆脱 了 乏味 的 地 址 计算 任务 (参见 2. 12 节 )。 


著 ] 硬件 /软件 接口 ”编译 器 经 常 创建 一 些 在 编程 语言 中 没 出 现 过 的 分 支 和 标签 。 避 免 显 式 地 
编写 这 些 标 签 和 分 支 是 使 用 高 级 编程 语言 的 好 处 之 一 ， 也 是 其 编码 速度 快 的 一 个 原因 。 


2.7.1 循环 


无 论 是 在 二 选 一 的 这 语句 中 ， 还 是 在 迭代 计算 的 循环 语句 中 ， 决 策 都 起 着 重要 作用 。 但 这 
两 种 情况 下 ， 关 于 决策 的 汇编 语言 指令 是 相同 的 。 


即 ] 例题 编译 下 面 C 语言 while 循环 语句 
下 面 是 用 C 语言 编写 的 传统 循环 程序 : 
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while (save[i] == k) 
i += 1 


假设 i 和 k 存放 在 寄存 器 $s3 和 $s5 中 ,数组 save 的 基 址 存放 在 寄存 器 $s6 中 。 求 这 
段 C 程序 对 应 的 MIPS 汇编 代码 。 


加 答案 

第 一 步 需要 将 save [i] 读 和 一 个 临时 寄存 器 中 。 在 读 和 之前， 需要 计算 它 的 地 址 。 在 
将 i 加 到 save 数组 基 址 以 形成 访 存 地 址 前 ， 由 于 系统 按照 字 节 寻 址 的 缘故 ， 先 要 将 i 乘 以 4。 
幸运 的 是 ， 我 们 可 以 使 用 逻辑 左 移 指令 实现 这 一 乘法 ， 因 为 左 移 2 位 等 价 于 乘 4 ( 见 2.6 节 )。 
需要 在 该 指令 前 增加 一 个 标签 Loop ， 以 便 在 循环 末端 能 够 跳 回 该 指令 。 

Loop: :sill 事 t ,可 S3 # Temp reg $tl = i *4 

为 了 得 到 save [i] 的 地 址 ， 需 要 将 $tl 和 $s6 中 save 的 基 址 相 加 : 


add $tl1,$t1,$s6 # $tl = address of save[i] 


现在 可 用 该 地 址 将 save [i] 读 入 一 个 临时 寄存 器 中 : 

lw $t0,0($t1) # Temp reg $t0 = save[i] 

下 一 条 指令 执行 循环 判断 ， 如 果 save [i] 关 k 则 退出 循环 : 
bne $t0,$s5, Exit  # go to Exit if save[i] * k 

再 下 一 条 指令 将 i 加 1: 

addi $s3,$s3,1 # i=1i+1 


在 循环 的 末尾 ， 程 序 跳 转 到 循环 的 开始 。 随 后 增加 了 一 个 Exit 标签 ， 这样 就 完成 了 全 部 


编译 : 
j Loop # go to Loop 
已 多 让 二 


( 见 练习 题 中 对 该 指令 序列 的 优化 。) 0 


团 ! 硬件 /软件 接口 ”以 分 支 指令 结束 的 这 类 指令 序列 对 编译 非常 重要 ， 因 此 它们 有 对 应 的 专 
用 术语 : 基本 块 。 基 本 块 (basic block) 是 没有 分 支 (可 能 出 现在 末尾 者 除外 ) 并 且 没有 
分 支 目 标 /分 支 标签 (可 能 出 现在 开始 者 除外 ) 的 指令 序列 。 编 译 最 初 阶段 的 任务 之 一 就 
是 将 程序 分 解 为 若干 基本 块 。 


号” 基本 块 : 没有 分 支 (可 能 出 现在 末尾 者 除外 ) 并 且 没 有 分 支 目标 /分 支 标签 (可 能 出 现在 
开始 者 除外 ) 的 指令 序列 。 


最 常见 的 判断 语句 可 能 是 相等 或 不 等 ， 但 有 时 判断 一 个 变量 是 否 小 于 另 一 个 变量 也 非常 有 
用 。 例 如 ，for 循环 就 需要 判断 索引 变量 是 否 小 于 0。 在 MIPS 汇编 语言 中 提供 了 一 条 指令 来 实 
现 这 种 比较 ， 该 指令 在 比较 两 个 寄存 器 内 容 之 后 ， 若 第 一 个 寄存 器 小 于 第 二 个 寄存 器 ， 则 将 第 
三 个 寄存 器 设置 为 1， 否则 设置 为 0。 该 指令 称 为 小 于 则 置 位 〈set on less than)， 即 slt。 
例如 ， 

slt  $t0, $s3, $s4 # $t0 = 1 if $s3 < $s4 
表示 当 寄 存 器 $s3 的 值 小 于 寄存 器 $s4 的 值 时 ， 寄 存 器 $t0 被 置 为 1， 否 则 寄存 器 $t0 被 置 
为 0。 

在 比较 中 经 常 使 用 常数 操作 数 ， 所 以 有 立即 数 版 本 的 小 于 则 置 位 指令 。 例 如 ， 为 了 测试 寄 
存 器 $s2 的 值 是 否 小 于 常数 10， 可 以 使 用 如 下 指令 : 


Slti $t0,$s2,10 # $t0 = 1 if $s2 < 10 


邯 ] 硬件 /软件 接口 ”MIPS 编译 器 使 用 slt 、slti、beq、bne 和 固定 值 0 (总 是 可 以 通过 读 
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取 寄 存 器 $zero 来 获得 ) 来 创建 所 有 的 比较 条 件 : 相等 、 不 等 、 小 于 、 小 于 或 等 于 、 大 
于 、 大 于 或 等 于 。 


遵循 汉 “' 诺 伊 曼 关于 “设备 ”简单 性 的 原则 ，MIPS 体系 结构 没有 提供 “小 于 则 分 支 ” 指 
令 ， 因 为 这 种 指令 过 于 复杂 ， 它 会 延长 时 钟 周期 时 间 ， 或 增加 平均 执行 每 条 指令 的 周期 数 
(CPI) 。 两 条 更 快 的 指令 更 加 有 用 。 


oo 硬件 /软件 接口 ”比较 指令 应 该 具有 分 清 有 符号 数 和 无 符号 数 的 能 力 。 有 时 候 二 进 制 数 最 
高 位 为 1 的 数 代 表 一 个 负数 ， 它 当然 应 该 小 于 所 有 最 高 有 效 位 为 0 的 正 数 。 另 一 方面 ， 如 
果 是 无 符号 数 ， 最 高 有 效 位 为 1 的 数 将 大 于 所 有 最 高 有 效 位 为 0 的 数 。( 我 们 将 很 快 看 到 
最 高 有 效 位 具有 双重 意义 在 减少 数组 边界 检查 开销 中 所 带 来 的 优点 。) 
MIPS 为 这 两 种 情况 提供 两 个 版 本 的 小 于 则 置 位 指令 。s1t (set on less than) 和 slti 
(set on less than immediate) 指令 用 于 处 理 有 符号 整数 ， 而 sltu (set on less than unsigned) 
和 sltiu (set on less than immediate unsigned) 指令 则 用 于 处 理 无 符号 整数 。 


著 ] 例题 . 有 符号 比较 和 无 符号 比较 的 对 比 
假设 寄存 器 $s0 中 的 二 进 制 数 为 


TT L111 LLTE LI LTEL Lli TLLL 11lL 


而 寄存 器 $sl 中 的 二 进 制 数 为 


0000 0000 0000 0000 0000 0000 0000 0001; 


在 执行 以 下 两 条 指令 后 ， 寄 存 器 $t0 和 $tl 中 的 值 分 别 是 多 少 ? 


slt $t0, $s0, $sl # signed comparison 
sltu $tl, $s0, $sl # unsigned comparison 
人 @] 答案 


如 果 是 有 符号 数 ， 那 么 寄存 器 $s0 中 的 值 为 - le， 寄 存 器 $sl 中 的 值 为 lo; 如 果 是 无 符 
号 数 ， 那 么 寄存 器 $s0 中 的 值 为 4 294 967 295。， 寄 存 器 $sl 中 的 值 仍 为 lo。 因此 ， 寄 存 器 
$t0 中 的 值 为 1， 因 为 -lo<lo; 寄存 器 $tl 中 的 值 为 0， 因 为 4294 967 295。> lio。 口 


将 有 符号 数 作为 无 符号 数 来 处 理 ， 是 一 种 检验 0<* <y 的 低 开 销 方法 ， 常 用 于 检查 数组 
的 下 标 是 否 越界 。 问 题 的 关键 是 负数 在 二 进 制 补 码 表示 法 中 看 起 来 像 是 无 符号 表示 法 中 一 
个 很 大 的 数 ， 因 为 在 无 符号 数 中 最 高 有 效 位 是 符号 位 ， 而 有 符号 数 中 最 高 有 效 位 是 具有 最 
大 权重 的 位 。 所 以 使 用 无 符号 比较 * <y， 在 检查 * 是 否 小 于 y 的 同时 ， 也 检查 了 x 是 否 为 一 
个 负数 。 


oo 例题 * 边界 检查 的 简便 方法 
利用 这 个 方法 可 以 降低 检验 下 标 是 否 越界 的 开销 : 如 果 $sl 宇 $t2 或 者 $sl 是 负数 则 跳 
转 到 IndexOutOfBounds。 


厂 ] 答案 
检查 代码 仅 使 用 一 条 sltu 指令 即 可 同时 进行 两 种 检查 : 


sltu $t0,$s1,$t2 # $t0=0 if $s1l>=length or $s1<0 
beq $t0,$zero,IndexOutOfBounds #if bad, goto Error 口 
2. 7.2 case/switch 语句 


大 多 数 程序 设计 语言 中 都 包括 case 或 switch 语句 ， 使 得 程序 员 可 以 根据 某 个 变量 的 值 选择 
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不 同 分 支 之 一 。 实 现 switch 语句 的 最 简单 方法 是 借助 一 系列 的 条 件 判 断 ， 将 switch 语句 转化 为 
if-then-else 语句 肯 套 。 

有 时 候 另 一 种 更 有 效 的 方法 是 将 多 个 指令 序列 分 支 的 地 址 编码 为 一 张 表 ， 即 转移 地 址 表 
(jump address table) 或 转移 表 (jump table) ， 这 样 程序 只 需 索 引 该 表 即 可 跳 转 到 恰当 的 指令 序 
列 。 转 移 地 址 表 是 一 个 由 代码 中 标签 所 对 应 地 址 构成 的 数组 。 程 序 需 要 跳 转 的 时 候 首先 将 转移 
地 址 表 中 适当 的 项 加 载 到 寄存 器 中 ， 然 后 使 用 寄存 器 中 的 地 址 值 进行 跳 转 。 为 了 支持 这 种 情 
况 ， 像 MIPS 这 样 的 计算 机 提供 了 寄存 器 跳 转 指 令 jr (jump register) ， 用 来 无 条 件 地 跳 转 到 寄 
存 器 指定 的 地 址 。 该 指令 将 在 下 一 节 中 介绍 。 


史 ”转移 地 址 表 : 又 称 作 转 移 表 (jump table) ， 指 包含 不 同 指令 序列 地 址 的 表 。 


团 | 硬件 /软件 接口 、 虽 然 在 C 或 Java 这 样 的 编程 语言 中 有 许多 决策 和 循环 语句 ， 但 是 在 指令 
集 这 一 层次 实现 其 功能 的 基本 语句 是 条 件 分 支 。 


著 | 精 解 ”如果 你 曾经 听 说 过 延迟 转移 (将 在 第 4 章 中 介绍 ) ， 那 么 不 必 对 此 表示 担心 : MIPS 
汇编 器 会 使 其 对 汇编 语言 程序 员 不 可 见 。 


围 | 小 测验 

I.C 语言 中 有 很 多 决策 和 循环 语句 ， 但 是 在 MIPS 中 却 很 少 。 下 述 各 句子 有 没有 阐明 这 
种 不 均衡 ? 为 什么 ? 
1. 更 多 的 决策 语句 使 得 代码 更 容易 被 阅读 和 理解 。 
2. 更 少 的 决策 语句 简化 了 负责 执行 的 底层 工作 。 
3. 更 多 的 决策 语句 意味 着 更 少 的 代码 量 ， 这 节约 了 编程 的 时 间 。 
4. 更 多 的 决策 语句 意味 着 更 少 的 代码 量 ， 这 意味 着 执行 更 少 的 操作 。 

开 . 为 什么 C 语言 提供 了 两 种 与 操作 (& 和 &&) 和 两 种 或 操作 ( | 和 | ) ， 而 MIPS 没有 
提供 呢 ? 
1. 逻辑 操作 AND 和 OR 实现 & 和 | ， 而 条 件 分 支 实现 && 和 || 。 
2. 上 面 的 描述 说 反 了 : && 和 | 对 应 于 逻辑 操作 ， 而 & 和 | 对 应 于 条 件 分 支 。 : 
3. 它们 是 元 余 的 ， 并 且 是 一 回 事 。&& 和 上 都 是 简单 继承 于 C 程序 设计 语言 的 前 身 : B 


语言 。 
2.8 计算 机 硬件 对 过 程 的 支持 


过 程 (procedure) 或 函数 是 程序 员 进 行 结构 化 编程 的 工具 ， 两 者 均 有 助 于 提高 程序 的 可 理 
解 性 和 代码 的 可 重用 性 。 过 程 允 许 程序 员 每 次 只 需 将 精力 集中 在 任务 的 一 部 分 ， 由 于 参数 能 传 
递 数值 并 返回 结果 ， 因 此 参数 承担 过 程 与 其 他 程序 、 数 据 之 间接 口 的 角色 。2. 15 节 描 述 了 Java 
语言 中 过 程 的 等 价 表示 方法 ,但 Java 与 C 语言 对 计算 机 的 要 求 完 全 相同 。 过 程 是 软件 中 实现 
抽象 的 一 种 方法 。 


”过 程 ; 根据 提供 的 参数 执行 一 定 任务 的 存储 的 子 程序 。 


你 可 以 将 过 程 想 象 成 一 个 侦探 ， 他 离开 时 带 着 一 项 神秘 的 计划 ， 为 了 完成 该 计划 ， 需 要 获 
得 资源 、 执 行 任务 并 隐匿 行踪 ， 最 后 带 着 预期 的 结果 返回 起 点 。 一 旦 任务 完成 将 不 再 对 系统 产 
生 任 何其 他 干扰 。 更 重要 的 是 , 俩 探 是 在 “需要 知道 ”的 基础 上 工作 的 ， 所 以 侦探 不 需 对 雇 
主 做 任何 假定 。 


指 人 4 


会 ; 计算 机 的 语言 








同样 ， 在 过 程 运 行 中 ， 程 序 必须 遵循 以 下 6 个 步 又: 
1) 将 参数 放 在 过 程 可 以 访问 的 位 置 。 

2) 将 控制 转交 给 过 程 。 

3) 获得 过 程 所 需 的 存储 资源 。 
4) 执行 需要 的 任务 。 
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5) 将 结果 的 值 放 在 调用 程序 可 以 访问 的 位 置 。 


6) 将 控制 返回 初始 点 ， 因 为 一 个 过 程 可 能 由 一 个 程序 中 的 多 个 点 调用 。 

如 上 所 述 ， 寄 存 器 是 计算 机 中 保存 数据 最 快 的 位 置 ， 所 以 我 们 希望 尽 可 能 多 地 使 用 寄存 

MIPS 软件 在 为 过 程 调用 分 配 32 个 寄存 器 时 遵循 以 下 约定 : 

。 $a0 ~ $a3: 用 于 传递 参数 的 4 个 参数 寄存 器 。 

。 $v0 ~ $v1: 用 于 返回 值 的 两 个 值 寄存 器 。 

。 $ra: 用 于 返回 起 始点 的 返回 地 址 寄存 器 。 

除了 分 配 这 些 寄 存 器 之 外 ，MIPS 汇编 语言 还 包括 一 条 过 程 调用 指令 : 跳 转 到 某 个 地 址 的 
同时 将 下 一 条 指令 的 地 址 保存 在 寄存 器 $ra 中 。 这 条 跳 转 和 链接 指令 (jump- and- link instruc- 
tion) 的 格式 为 : 

jal ProcedureAddress 


™ 


跳 转 和 链接 指令 
指令 
> 


指令 中 的 链接 部 分 表示 指向 调用 点 的 地 址 或 链接 ， 以 允许 过 程 返回 到 合适 的 地 址 。 存 储 在 
寄存 器 $ra (31 号 寄存 器 ) 中 的 链接 部 分 称 为 返回 地 址 (return address) 。 返 回 地 址 是 必需 的 ， 
因为 同一 过 程 可 能 在 程序 的 不 同 部 分 调用 。 

器 $ra 中 。 


寸 六 $ra 


跳 转 到 某 个 地 址 的 同时 将 下 一 条 指令 的 地 址 保存 到 寄存 器 $ra 中 的 
返回 地 址 : 指向 调用 点 的 链接 ， 使 过 程 可 以 返回 到 合适 的 地 址 ， 在 MIPS 中 它 存 储 在 寄存 


为 了 支持 这 种 情况 ， 类 似 MIPS 的 计算 机 使 用 了 寄存 器 跳 转 (jump register) 指令 jr， 用 
于 case 语句 ， 表 示 无 条 件 跳 转 到 寄存 器 所 指定 的 地 址 : 


指令 将 控制 返回 给 调用 者 。 


寄存 器 跳 转 指令 跳 转 到 存储 在 $ra 寄存 器 中 的 地 址 一 一 这 正 是 我 们 所 希望 的 。 因 此 ， 调 
好 准备 。 
3 


用 程序 或 称 为 调用 者 (caller) ， 将 参数 值 放 在 $a0 ~ $a3， 然 后 使 用 jal x 跳 转 到 过 程 x (有 
2 


时 称 为 被 调用 者 (callee) ) 。 被 调用 者 执行 运算 ， 将 结果 放 在 $v0 和 $v1， 然 后 使 用 jr $ra 


过 程 。 
2 


在 存储 程序 概念 中 ， 使 用 一 个 寄存 器 来 保存 当前 运行 的 指令 地 址 是 绝对 必要 的 。 尽 管 这 个 
寄存 器 更 为 合理 的 名 字 可 能 应 该 是 指令 地 址 寄存 器 (instruction address register) ， 但 是 出 于 历史 
jal 指令 实际 上 将 PC +4 保存 在 寄存 器 $ra 中 ， 从 而 将 链接 指向 下 一 条 指令 ， 为 过 程 返回 做 


原因 ， 这 个 寄存 器 通常 称 为 程序 计数 器 (program counter) ， 在 MIPS 体系 结构 中 缩写 为 PC。 
调用 者 : 调用 一 个 过 程 并 为 过 程 提供 必要 参数 值 的 程序 。 


被 调用 者 : 根据 调用 者 提供 的 参数 执行 一 系列 存储 的 指令 ,然后 将 控制 权 返 回调 用 者 的 
程序 计数 器 (PC) ; 包含 在 程序 中 正在 被 执行 指令 地 址 的 寄存 器 。 


66 第 2 章 





2. 8. 1 使 用 更 多 的 寄存 器 


假设 对 于 一 个 过 程 ， 编 译 器 需要 使 用 多 于 4 个 参数 寄存 器 和 两 个 返回 值 寄存 器 。 由 于 在 任务 
完成 后 必须 消除 踪迹 ， 因 此 调用 者 使 用 的 任何 寄存 器 都 必须 恢复 到 过 程 调用 前 所 存储 的 值 。 这 种 
情况 可 以 看 成 是 需要 将 寄存 器 换 出 到 存储 器 的 一 个 例子 ， 如 “硬件 /软件 接口 ”部 分 所 提 到 的 
那样 。 

换 出 寄存 器 的 最 理想 的 数据 结构 是 栈 (stack) 一 一 一 种 后 进 先 出 的 队列 。 栈 需要 一 个 指 
针 指 向 栈 中 最 新 分 配 的 地 址 ， 以 指示 下 一 个 过 程 放 置换 出 寄存 器 的 位 置 ， 或 是 寄存 器 旧 值 的 存 
放 位 置 。 在 每 次 寄存 器 进行 保存 或 恢复 时 ， 栈 指针 (stack pointer) 以 字 为 单位 进行 调整 。 
MIPS 软件 为 栈 指针 准备 了 第 29 号 寄存 器 ， 并 将 其 命名 为 $sp。 由 于 栈 的 应 用 十 分 广泛 ， 因 此 
向 栈 传递 数据 或 从 栈 中 取 数 都 有 专用 术语 : 将 数据 放 人 栈 中 称 为 压 栈 (push) ， 从 栈 中 移 除数 
据 称 为 出 栈 (pop ) 。 


允 ” 栈 : 被 组 织 成 后 进 先 出 队列 形式 并 用 于 寄存 器 换 出 的 数据 结构 。 

允 ” 栈 指针 : 指示 栈 中 最 近 分 配 的 地 址 的 值 ， 它 指示 寄存 器 被 换 出 的 位 置 ， 或 寄存 器 旧 值 的 存 
放 位 置 。 在 MIPS 中 ， 栈 指针 是 寄存 器 $sp。 

令 “” 压 栈 : 向 栈 中 增加 元 素 。 

令 ”出 栈 : 从 栈 中 移 除 元 素 。 


按照 历史 惯例 ， 栈 “增长 ”是 按照 地 址 从 高 到 低 的 顺序 进行 的 。 这 意味 着 将 数据 压 栈 时 ， 
栈 指针 值 减 小 ;而 数据 出 栈 时 ， 栈 长 度 缩短 ， 栈 指针 增 大 。 


著 | 例题 编译 一 个 不 调用 其 他 过 程 的 C 过 程 
将 2. 2 节 的 例子 转化 为 一 个 C 过 程 : 


int leaf_example (int g, int h, int i, int j) 
{ 
int f:; 


le ee 人 二 天 7 
return f; 
} 


编译 后 的 MIPS 汇编 代码 是 什么 呢 ? 


o 虽 答案 
参数 变量 g、h、i 和 j 对 应 参数 寄存 器 $a0、$al、$a2 和 $a3，f 对 应 $s0。 编 译 后 的 
程序 是 以 如 下 标号 开始 的 过 程 : 

leaf_example: 

下 一 步 是 保存 过 程 中 使 用 的 寄存 器 。 过 程 实体 中 的 C 赋值 语句 与 2. 2 节 的 例子 相同 ， 使 用 
了 两 个 临时 寄存 器 。 因 此 ， 需 要 保存 三 个 寄存 器 : $s0、$t0 和 $t1。 我 们 将 旧 值 “ 压 栈 ”， 
也 就 是 在 栈 中 建立 三 个 字 的 空间 ， 并 将 数据 存 人 : 

addi $sp，$sp，-12 # adjust stack to make room for 3 items 

Sw  $tl, 8($sp) # save register $tl for use afterwards 


Sw  $t0, 4($sp) # save register $t0 for use afterwards 
Sw $s0, 0($sp) # save register $s0 for use afterwards 


图 2-10 给 出 了 在 过 程 调用 之 前 、 之 中 和 之 后 的 栈 。 
接着 的 三 条 语句 对 应 过 程 实体 ， 与 2. 2 节 的 例子 相同 : 
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高 地 址 
$ sp 一 
寄存 器 $tI 的 内 容 一 
寄存 器 人 
低地 址 
a) b) €) 


图 2-10 在 过 程 调 用 之 前 (a)、 之 中 (b) 和 之 后 〈e) ， 栈 指针 以 及 栈 的 值 。 栈 指针 
总 是 指向 栈 顶 ， 或 者 说 是 图 中 栈 的 最 后 一 个 字 


add $t0,$a0,$al # register $t0 contains g + h 
add $tl,$a2,$a3 # register Stl contains i + j 
sub $s0,$t0,$tl # f= $t0 - $tl, which is (g + h)-(i + j) 


为 了 返回 的 值 ， 我 们 将 它 复 制 到 一 个 返回 值 寄存 器 中 : 


add $v0,$s0,$zero # returns f ($v0 = $s0 + 0) 


在 返回 前 ,我 们 通过 从 栈 中 “弹出 ”数据 的 方式 恢复 寄存 器 的 三 个 旧 值 : 


lIw $s0, 0($sp) # restore register $s0 for caller 
lIw $t0, 4($sp) # restore register $t0 for caller 
lw $tl, 8($sp) # restore register $tl for caller 
addi $sp,$sp,12 # adjust stack to delete 3 items 


过 程 末 尾 处 根据 跳 转 寄存 器 中 的 返回 地 址 跳 转 : 


jrF $ra # jump back to calling routine 口 


前 面 的 例子 曾经 使 用 了 临时 寄存 器 ， 并 假设 它们 的 旧 值 必须 保存 和 恢复 。 为 了 避免 保存 和 
恢复 一 个 其 值 未 被 使 用 过 的 寄存 器 (通常 是 临时 寄存 器 ) ，MIPS 软件 将 18 个 寄存 器 分 为 两 组 : 

。 St0 ~ $t9: 10 个 临时 寄存 器 ， 在 过 程 调用 中 不 必 被 调用 者 (被 调用 的 过 程 ) 保存。 

。 $s0 ~ $s7: 8 个 保留 寄存 器 ， 在 过 程 调用 中 必须 被 保存 (一 旦 被 使 用 ， 由 被 调用 者 

保存 和 恢复 ) 。 

这 一 简单 约定 减少 了 寄存 器 换 出 。 在 上 面 的 例子 中 ， 因 为 调用 者 不 希望 在 过 程 调 用 时 保留 
寄存 器 $t0 和 8$tl1 ， 所 以 我 们 可 以 去 掉 有 关 两 次 保存 和 两 次 载 人 的 代码 。 我 们 始终 需要 保存 
和 恢复 $s0 ， 因 为 被 调用 者 必须 假设 调用 者 需要 该 值 。 


2. 8.2 姥 套 过 程 


不 调用 其 他 过 程 的 过 程 称 为 叶 过 程 (leaf procedure) 。 如 果 所 有 过 程 都 是 叶 过 程 ， 那 么 情 
况 就 很 简单 ， 但 实际 并 非 如 此 。 就 像 一 个 侦探 ， 其 任务 的 一 部 分 是 雇用 其 他 侦探 ， 被 雇用 的 侦 
探 进而 雇用 更 多 的 侦探 ， 某 个 过 程 调用 其 他 过 程 也 是 这 样 。 更 进一步 的 是 ， 递 归 过 程 甚至 调用 
的 是 自身 的 “克隆 " 。 就 像 在 过 程 中 使 用 寄存 器 需要 十 分 小 心 一 样 ， 在 调用 非 叶 过 程 时 需要 更 
加 小 心 。 

例如 ， 假 设 主 程序 将 参数 3 存 人 寄存 器 $a0 ， 然 后 使 用 jal A 调用 过 程 A。 再 假设 过 程 A 
通过 jal 8 调用 过 程 B， 参 数 为 7， 同 样 存 人 $a0。 由 于 A 尚未 结束 任务 ， 所 以 在 寄存 器 $a0 
的 使 用 上 存在 冲突 。 同 样 ， 在 寄存 器 $ra 保存 的 返回 地 址 上 也 存在 冲突 ， 因 为 它 现 在 保存 着 B 
的 返回 地 址 。 除 非 我 们 采取 措施 阻止 这 类 问题 发 生 ， 否 则 这 个 冲突 将 导致 过 程 A 无 法 返回 其 调 
用 者 。 


68 第 2 章 








一 个 解决 方法 是 将 其 他 所 有 必须 保留 的 寄存 器 压 栈 ， 就 像 将 保存 寄存 器 压 栈 一 样 。 调 用 者 将 
所 有 调用 后 还 需要 的 参数 寄存 器 ( $a0 ~ $a3) 或 临时 寄存 器 ( $t0 ~ $t9) 压 栈 。 被 调用 者 将 
返回 地 址 寄存 器 $za 和 被 调用 者 使 用 的 保存 寄存 器 ($s0 ~ $s7) 都 压 栈 。 栈 指针 $sp 随 着 栈 
中 寄存 器 个 数 调整 。 到 返回 时 ， 寄 存 器 会 从 存储 器 中 恢复 ， 栈 指针 也 随 着 重新 调整 。 


个 例题。 编译 一 个 递归 C 过 程 ， 演 示 嵌 套 过 程 的 链接 
下 面 是 一 个 计算 阶乘 的 递归 过 程 : 


int fact (int n) 
{ 
if (n < 1) return (1); 
else return (n * fact(n - 1)); 
} 


该 过 程 的 MIPS 汇编 代码 是 怎样 的 呢 ? 


加 | 答案 
参 变量 n 对 应 参数 寄存 器 $a0 。 编 译 后 的 程序 以 过 程 标签 开始 ， 然 后 在 栈 中 保存 两 个 寄存 


器 ， 一 个 是 返回 地 址 ， 另 一 个 是 $a0 : 
tact 
addi $sp, $sp, -8 # adjust stack for 2 items 
Sw $ra, 4($sp) # save the return address 
Sw $a0, 0($sp) # save the argument n 


第 一 次 调用 fact 时 ，sw 保存 程序 中 调用 fact 的 地 址 。 紧 接着 的 两 条 指令 测试 n 是 否 小 
于 1， 如 果 n 宕 1 则 跳 转 到 L1 。 


slti $t0,$a0,1 # test for n < 1 
beq $t0,$zero,L1 # if n >= 1, go to Ll1 


如 果 n 小 于 1，fact 将 1 置信 一 个 值 寄存 器 并 返回 。 具 体 做 法 是 在 0 上 加 1 再 将 和 存 人 
$v0。 然 后 从 栈 中 弹出 两 个 已 保存 的 值 并 跳 转 到 返回 地 址 : 


addi $v0,$zero,1 # return 1 
addi $sp,$sp,8 # pop 2 items off stack 
jr $ra # return to caller 


在 从 栈 中 退出 两 项 之 前 ， 本 应 该 加 载 $a0 和 $ra。 但 由 于 n 小 于 1 时 ，$a0 和 $ra 没有 
变化 ， 所 以 就 跳 过 了 这 些 指令 。 
如 果 n 不 小 于 1， 参数 n 减 1 后 ,使 用 减 1 后 的 值 再 次 调用 fact: 


Ll: addi $a0,$a0,-1 # n >= 1: argument gets (n - 1) 
jal fact # call fact with (n -1) 


下 一 条 指令 是 fact 的 返回 位 置 。 现 在 旧 的 返回 地 址 和 旧 的 参数 以 及 栈 指针 都 需要 恢复 : 
lIw $a0, 0($sp) # return from jal: restore argument n 

lIw S$ra, 4($sp) # restore the return address 

addi $sp, $sp, 8 # adjust stack pointer to pop 2 items 


接 下 来 ， 值 寄存 器 $v0 得 到 旧 参 数 $a0 和 当前 值 寄存 器 的 乘积 。 这 里 假设 乘法 指令 是 可 
用 的 ， 尽 管 直 到 第 3 章 才 涉及 乘法 指令 。 
mul  $v0,$a0,$v0 # return n * fact (n - 1) 


最 后 ，fact 再 次 跳 转 到 返回 地 址 : 


jr  $ra # return to the caller 口 


o 硬件 /软件 接口 C 语言 中 的 一 个 变量 通常 对 应 存储 中 的 一 个 位 置 ， 其 解释 取决 于 其 类 型 
(type) 和 存储 方式 (storage class) 。 这 方面 的 例子 包括 整 型 和 字符 型 ( 见 2.9 节 )。C 语 
言 包 括 两 种 存储 方式 : 动态 的 (automatic) 和 静态 的 (static)。 动 态 变 量 位 于 过 程 中 ， 当 


过 程 退 出 时 失效 。 静 态 变 量 在 进入 和 退出 过 程 时 始终 存在 。 在 所 有 过 程 之 外 声明 的 C 变 
量 ， 以 及 声明 时 使 用 关键 字 static 的 变量 都 被 视 作 静态 的 ， 其 余 的 变量 都 被 视 作 动态 的 。 
为 了 简化 静态 数据 的 访问 ，MIPS 软件 保留 了 另 一 个 寄存 器 ， 称 为 全 局 指针 ( global point- 
er) ， 即 $gp。 


0 


全 局 指针 : 指向 静态 数据 区 的 保留 寄存 器 。 


图 2-11 总 结 了 过 程 调用 时 所 需 保存 的 内 容 。 需 要 注意 的 是 ,一 些 方 案 保 存 了 栈 ， 以 确保 
调用 者 出 栈 时 得 到 与 压 栈 时 相同 的 数据 。 只 需 保证 被 调用 者 不 在 $sp 以 上 进行 写 操作 ，$ sp 
以 上 的 栈 就 可 以 得 到 保存 ; 而 $sp 本 身 的 保存 是 通过 按 被 调用 者 将 减 去 值 的 相同 数量 重新 加 
上 来 实现 的 ， 其 他 寄存 器 则 通过 将 它们 保存 到 栈 〈 如 果 它 们 被 使 用 到 的 话 ) 再 从 栈 中 恢复 它 
们 来 进行 保存 。 


| 保存 寄存 器 ;$s0 ~ $s7 临时 寄存 器 ，St0 ~ $t9 

| 栈 指针 寄存 器 : $sp 参数 寄存 器 : $a0 ~ $a3 
返回 地 址 寄存 器 : $ra 返回 值 寄存 器 : $v0 ~ $vl 
栈 指 针 以 上 的 栈 


栈 指针 以 下 的 栈 

图 2-11 过 程 调用 时 ， 保 留 和 不 保留 的 内 容 。 如 果 软 件 依赖 于 下 面 将 讨论 的 帧 指针 寄存 器 或 者 全 局 指针 
寄存 器 ， 那么 它们 也 需要 保留 

2. 8. 3 在 栈 中 为 新 数据 分 配 空间 


栈 的 最 后 一 点 复杂 性 是 栈 还 需要 存储 过 程 的 局 部 变量 ， 但 这 些 变 量 不 适用 于 寄存 器 ， 例 如 局 
部 的 数组 或 结构 体 。 栈 中 包含 过 程 所 保存 的 寄存 器 和 局 部 变量 的 片段 称 为 过 程 帧 (procedure 
frame) 或 活动 记录 (activation record) 。 图 2-12 显示 了 过 程 调 用 之 前 、 之 中 和 之 后 栈 的 状态 。 
































低地 址 
a) b) Gy 


图 2-12 ”过 程 调用 之 前 (a) 、 之 中 (b) 、 之 后 (c) 栈 的 分 配 情况 。 帧 指针 〈 $fp) 指向 该 帧 的 第 一 个 
字 (一 般 是 保存 的 参数 寄存 器 ) ， 而 栈 指针 ( $sp) 指向 栈 顶 。 栈 可 调整 为 有 足够 的 空间 来 容 
纳 所 有 的 保存 寄存 器 和 驻 留 内 存 的 局 部 变量 。 因 为 在 程序 运行 期 栈 指针 可 能 会 改变 ， 所 以 对 于 
程序 员 而 言 ， 虽 然 使 用 栈 指 针 和 少量 的 地 址 运算 就 可 能 完成 对 变量 的 引用 ， 但 使 用 固定 的 帧 指 
针 引 用 变量 会 更 为 简单 。 如 果 在 一 个 过 程 中 栈 内 没有 局 部 变量 ， 编 译 器 将 可 以 不 设置 和 不 恢复 
帧 指针 以 节省 时 间 。 当 使 用 帧 指针 时 ， 在 调用 中 使 用 $sp 的 地 址 进行 初始 化 ， 而 $sp 可 以 使 
用 $fp 来 恢复 。 相 关内 容 可 以 在 MIPS 参考 数据 卡 的 第 4 列 找到 
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某 些 MIPS 软件 使 用 帧 指针 (frame pointer，$fp) 指向 过 程 帧 的 第 一 个 字 。 在 过 程 中 栈 指 
针 可 能 会 发 生 改 变 ， 因 此 存储 器 中 对 局 部 变量 的 引用 在 过 程 中 的 不 同位 置 可 能 具有 不 同 的 偏 移 
量 ， 这 使 得 过 程 更 加 难以 理解 。 另 一 种 方案 ， 帧 指针 在 一 个 过 程 中 为 局 部 存储 器 引用 提供 一 个 
固定 的 基 址 寄存 器 。 注 意 ， 无 论 是 否 使 用 显 式 的 帧 指针 ， 活 动 记 录 都 出 现在 栈 中 。 我 们 通过 避 
免 在 过 程 中 修改 $sp 来 避免 使 用 $fp ， 在 我 们 的 例子 中 ， 栈 只 在 过 程 的 人 口 和 出 口 需要 调整 。 


令 “ 过程 帧 : 也 称 作 活动 记录 ， 栈 中 包含 过 程 所 保存 的 寄存 器 以 及 局 部 变量 的 片段 。 
” 帧 指针 : 指向 给 定 过 程 中 保存 的 寄存 器 和 局 部 变量 的 值 。 


2. 8. 4 在 堆 中 为 新 数据 分 配 空间 


除了 动态 变量 对 过 程 是 局 部 有 效 之 外 ，C 程序 员 还 需要 在 内 存 中 为 静态 变量 和 动态 数据 结 
构 提 供 空 间 。 图 2-13 给 出 了 MIPS 分 配 内 存 的 约定 。 栈 由 内 存 高 端 开始 并 向 下 增长 。 内 存 低 端 
的 第 一 部 分 是 保留 的 ， 之 后 是 MIPS 机 器 代码 的 第 一 部 分 ， 通常 称 为 代码 段 (text segment) 。 代 
码 段 之 上 的 代码 为 静态 数据 段 〈static data segment) ， 是 存储 常量 和 其 他 静态 变量 的 空间 。 尽 管 
数组 通常 具有 固定 长 度 因而 能 与 静态 数据 段 很 好 地 匹配 ， 但 类 似 链表 这 样 的 数据 结构 通常 会 在 
生命 期 内 增长 或 缩短 。 这 类 数据 结构 对 应 的 段 习惯 上 称 为 堆 (heap ) ， 一 般 在 存储 器 中 放 在 静 
态 数据 段 之 后 。 注 意 ， 这 种 分 配 允 许 栈 和 堆 相 互 增长 ， 从 而 在 两 个 段 此 消 彼 长 的 过 程 中 达到 内 
存 的 高 效 使 用 。 


人 代码 段 ;: UNIX 目标 文件 中 的 段 ， 包 含 源 文件 中 例 程 对 应 的 机 器 语言 代码 。 


$sp 一 7fff fffchex 


$gp 一 1000 8000nex 

1000 0000pex 

pc-- 0040 0000pex 
0 


图 2-13 程序 和 数据 的 MIPS 内 存 分 配 。 这 些 地 址 只 是 一 种 软件 规定 ， 并 非 MIPS 体系 结构 的 一 部 分 。 
栈 指针 初始 化 为 7fff fffcis ， 并 朝 数据 段 的 方向 向 下 增长 。 在 另 一 端 ， 程 序 代码 (代码 段 ) 
从 地 址 0040 0000,。 开 始 。 静 态 数据 从 1000 0000,。 开始。 然后 是 动态 数据 ,在 C 中 使 用 


malloc 命令 分 配 ， 在 Java 中 使 用 new 命令 来 分 配 。 动 态 数据 在 某 一 区 域 中 朝 着 栈 的 方向 
向 上 生长 ， 该 区 域 称 为 堆 。 全 局 指针 $gp 应 设置 为 适当 地 址 以 便于 访问 数据 。 它 初始 化 为 
1000 80001。， 这 样 通 过 相对 $gp 的 正 负 16 位 的 偏 移 量 就 可 以 访问 从 1000 0000,6 到 
1000 ffffis 之 间 的 内 存 空间 。 关 于 这 点 可 参见 MIPS 参考 数据 卡 的 第 4 列 


C 语言 通过 显 式 的 函数 调用 在 堆 上 分 配 和 释放 空间 。malloc() 在 堆 上 分 配 空 间 并 返回 指 
向 它 的 指针 ，free() 释放 指针 指向 的 堆 空间 。 内 存 分 配 由 C 程序 控制 ， 这 是 很 多 错误 产生 的 
根源 。 忘 记 释 放空 间 会 导致 “内 存 泄 漏 " ， 它 会 逐渐 耗 尽 大 量 内 存 以 至 于 操作 系统 可 能 崩溃 。 
过 早 释 放空 间 会 导致 “ 悬 摆 指 针 ” ( dangling pointer) ， 会 造成 指针 指向 程序 不 想 访问 的 位 置 。 

Java 使 用 自动 的 内 存 分 配 和 无 用 单元 回收 机 制 来 防止 类 似 的 错误 发 生 。 
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图 2-14 总 结 了 MIPS 汇编 语言 的 寄存 器 约定 。 这 种 约定 是 加 速 大 概率 事件 的 另外 一 个 例 
子 : 传递 4 个 参数 、2 个 寄存 器 用 于 返回 结果 、 保 存 8 个 寄存 器 、10 个 暂 存 器 对 于 大 多 数 过 程 
调用 来 说 足够 使 用 。 


和 


计算 结果 和 表达 式 求 值 























保存 的 寄存 器 一 一 


更 多 临时 变量 
全 一 * 一 一 
[am 


图 2-14 MIPS 寄存 器 约定 称 为 $at 的 寄存 器 1 被 汇编 器 所 保留 ( 见 2. 12 节 ) ， 称 为 $k0 ~ $kl 的 寄 
存 器 26 ~ 27 被 操作 系统 所 保留 。 关 于 这 点 也 可 见 MIPS 参考 数据 卡 的 第 2 列 


邯 ) 精 解 如 果 参 数 多 于 4 个 该 怎么 办 呢 ? MIPS 约定 将 额外 的 参数 放 在 模 中 由 指针 的 上 方 。 这 
样 ， 过 程 从 寄存 器 $a0 到 $a3 中 获得 前 4 个 参数 ， 通 过 帧 指针 在 内 存 中 寻 址 获得 其 余 参 数 。 
如 图 2-12 中 所 述 ， 帧 指针 的 方便 性 在 于 对 过 程 中 所 有 栈 内 的 变量 引用 都 具有 相同 的 
偏 移 。 然 而 ， 帧 指针 并 不 是 必需 的 。GNU MIPS C 编译 器 使 用 帧 指针 ， 而 来 自 MIPS 的 C 
编译 器 则 没有 使 用 ， 它 将 寄存 器 30 用 作 另 一 个 保存 的 寄存 器 ($s8)。 
著 ) 精 解 ”一 些 递归 过 程 可 以 不 使 用 递归 而 用 和 送 代 的 方式 实现 。 通 过 消除 过 程 调用 的 相关 开 
销 ， 送 代 可 以 显著 提高 性 能 。 例 如 ， 考 虑 下 面 一 个 用 来 求 和 的 过 程 : 
int sum (int n, int acc) { 
if (n >0) 
return sum(n - 1, acc + n); 


else 
return acc: 











} 

考虑 过 程 调用 sum (3，0) 。 这 将 递归 调用 sum (2, 3)、sum (1, 5) 和 sum 
6) ， 然 后 结果 6 将 进行 4 次 返回 操作 。 这 种 求 和 的 递归 调用 称 为 尾 调用 (tail cal) ， 而 
个 例子 可 以 使 用 尾 迭 代 (tail recursion) 高 效 地 实现 (假设 $a0 =n 且 $al =acc): 


sum: Siti $t0, $a0, 1 # test if n <= 0 
bne $t0, $zero, sum _ exit # go to sum exit if n <= 0 
add$al, $al, $a0 # add n to acc 
addi$a0, $a0, -1 # subtract 1 from n 
j sum # go to sum 

sum_ exit: 
add$v0, $al, $zero # return value acc 
jr $ra # return to caller 

著 ] 小 测验 
下 面 关 于 C 和 Java 的 描述 哪些 是 正确 的 ? 


1. C 程序 员 显 式 地 管理 数据 ， 而 在 Java 中 一 般 是 自动 的 。 
2. C 比 Java 导致 更 多 的 指针 错误 和 内 存 泄漏 错误 。 
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2.9 人 机 交互 
1(@ | = > (wow open tab at bar is great) 
一 一 键盘 诗 《FHatless ts》 的 第 4 行 ，1991 
(对 有 5CIT 字符 的 一 些 命名 :“1” 是 wow,，“”(” 是 open，” |” 是 bar， 等 等 ) 


发 明 计 算 机 是 为 了 数字 计算 ,不 过 计算 机 很 快 被 用 于 商业 方面 的 文字 处 理 。 今 天 大 多 数 计 
算 机 使 用 8 位 的 字 节 来 表示 字符 ， 也 就 是 几乎 每 个 人 都 遵循 的 ASCI ( American Standard Code 
for Information Interchange) 码 。 图 2-15 对 ASCII 进行 了 总 结 。 


32 64 80 P 96 人 



















































































































0 @ 
33 1 65 A 81 Q 97 
2 B R 
3 C S 
4 D T 
5 E U 
6 F V 
7 G W 
8 H X 
9 I Y 
J 4 
K [ 
E \ 
M ] 
N 
0 























图 2-15 字符 的 ASCII 码 表示 。 注 意 所 有 大 写字 母 和 对 应 小 写字 母 的 差 均 为 32， 这 个 观测 结果 可 以 得 到 
一 条 检查 和 切换 大 小 写 的 简便 方法 。 没 有 给 出 的 ASCII 值 包括 格式 化 字符 。 例 如 ，8 代表 退 格 ， 
9 代表 tab 字符， 而 13 代表 回 车 。 另 外 一 个 有 用 的 值 0 表示 null ，C 编程 语言 用 这 个 来 标记 字符 
串 的 结尾 。 这 些 内 容 可 以 在 MIPS 参考 数据 卡 的 第 3 列 中 找到 


著 | 例题 。ASCII 码 与 二 进 制 数 对 比 

我 们 可 以 使 用 一 串 ASCII 码 而 不 用 整数 来 表示 数字 。 如 果 用 ASCII 码 表示 10 亿 这 个 数 将 比 
用 32 位 整数 表示 增加 多 少 存储 呢 ? 
邯 ] 答案 

10 亿 就 是 1000 000 000， 需 要 使 用 10 位 ASCII 码 表示 ， 每 一 个 ASCIL 码 都 是 8 位 长 。 所 以 
存储 将 增长 到 (10 x8) /32， 即 2.5 倍 。 除 了 存储 空间 要 增加 外 ， 用 于 对 这 些 十 进 制 数字 进行 
加 法 、 减 法 、 乘 法 和 除法 的 硬件 的 设计 也 是 困难 的 。 这 些 困难 解释 了 为 什么 计算 专家 越 来 越 相 
信使 用 二 进 制 的 计算 机 是 自然 的 ， 而 偶然 出 现 的 十 进 制 计算 机 则 是 奇怪 的 。 0 


可 以 使 用 一 系列 指令 从 一 个 字 中 提取 出 一 个 字 节 ， 所 以 字 的 读 取 和 存储 同样 可 以 完成 对 字 
节 的 传输 。 然 而 ， 由 于 在 某 些 程序 中 对 文本 的 操作 十 分 普遍 ， 所 以 MIPS 还 提供 字 节 传输 指令 。 
字 节 读 取 lb (load byte) 指令 从 内 存 中 读 出 一 个 字 节 ， 并 将 其 放 在 一 个 寄存 器 最 右边 的 8 位 。 
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字 节 存储 sb (store byte) 指令 把 一 个 寄存 器 最 右边 的 8 位 取出 来 然后 写 到 内 存 中 。 这 样 ， 我 
们 可 以 按 下 面 的 顺序 复制 一 个 字 节 : 


lb $t0,0($sp) # Read byte from source 
sb $t0,0($gp) # Write byte to destination 


字符 通常 被 组 合 为 字符 数目 可 变 的 字符 串 。 表 示 一 个 字符 串 的 方式 有 三 种 选择 : 1) 保留 
字符 串 的 第 一 个 位 置 用 于 给 出 字符 串 的 长 度 ; 2) 附加 一 个 带 有 字符 串 长 度 的 变量 ( 如 在 结构 
体 中 ); 3) 字符 串 最 后 的 位 置 用 一 个 字符 来 标识 其 结尾 。C 语言 使 用 第 三 种 选择 ， 用 一 个 值 为 
0 (ASCI 码 中 的 null) 的 字 节 来 结束 字符 串 。 所 以 ， 字 符 串 “Cal” 在 C 中 用 4 字 节 表示 ,用 
十 进 制 表 示 分 别 为 : 67、97、108 、0。 (下面 即将 看 到 ，Java 采用 第 一 种 表示 方法 。) 


加 ,例题 通过 编译 一 个 字符 串 复制 过 程 ， 来 展示 如 何 使 用 C 字符 串 
strcpy 过 程 将 C 语言 中 约定 使 用 null 字 节 结束 的 字符 串 y 复制 到 字符 串 x: 


void strcpy (char x[], char y[]) 
{ 
nt Ts 
0 
while ((x[i] = y[i]) != “\0’') /* copy & test byte */ 
1 = 
} 


编译 后 的 MIPS 汇编 代码 是 什么 ? 


著 ) 答案 
下 面 是 基本 的 MIPS 汇编 代码 段 。 假 定数 组 x 和 y 的 基地 址 在 $a0 和 $al 中 , 而 i 在 $s0 
中 。strcpy 调整 栈 指针 然后 将 保存 的 寄存 器 $s0 保存 在 栈 中 。 


strepy: 
addi $sp,$sp,-4 # adjust stack for 1 more item 
SW $s0，0($sp) # save $s0 


为 了 将 i 初始 化 为 0， 下 一 条 指令 通过 对 0 和 0 做 加 法 并 将 和 放 到 $s0 中 的 方法 将 $s0 置 
为 0: 

add $s0,$zero,$zero#i=0+0 

这 是 循环 的 开始 。y [i] 地 址 的 形成 是 通过 把 i 加 到 y [] 上 : 

Ll: add $tl,$s0,$al # address of y[i] in $tl 

注意 我 们 不 必 将 i 乘 以 4， 因 为 y 是 字 节 的 数组 而 并 非 字 的 数组 ， 和 前 面 的 例子 一 样 。 

为 了 读 取 y [i] 中 的 字符 ,我 们 使 用 无 符号 字 节 读 取 指令 ， 将 字符 放 入 $t2 中 : 

lbu $t2, O($t1) # $t2 = y[i] 

采用 类 似 的 计算 方式 将 x [i] 的 地 址 放 在 $t3 中 ， 然 后 将 $t2 中 的 字符 保存 到 该 地 


址 中 。 


add $t3,$s0,$a0 # address of x[i] in $t3 
sb $t2, 0($t3) # x[i] = y[i] 


接 下 来 ， 如 果 字 符 是 0 则 退出 循环 。 也 就 是 说 ， 如 果 它 是 字符 串 的 最 后 一 个 字符 则 退出 : 


beq $t2,$zero,L2 # if y[i] == 0, go to L2 


如 果 不 是 ， 将 i 加 1 继续 循环 : 
addi $s0, $s0,1 #i=i+1 
j Ey # go to Ll 


如 果 不 继续 循环 ， 那 就 是 到 了 字符 串 的 最 后 一 个 字符 ,我 们 还 原 $s0 和 栈 指针 ， 然 后 
返回 。 
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L2: 1w $s0, 0($sp) # y[i] == 0: end of string. 
# Restore old $s0 
addi $sp,$sp,4 # pop 1 word off stack 


jr $ra # return 
在 C 中 字符 串 复 制 通常 使 用 指针 而 不 是 数组 ， 从 而 避免 上 面 代码 中 对 i 的 操作 。 详 见 
2. 14 节 数 组 和 指针 对 比 的 相关 解释 。 OD 


由 于 strcpy 是 一 个 叶 过 程 ， 编 译 器 可 以 把 i 放 在 临时 寄存 器 中 以 避免 对 $s0 进行 保存 
和 恢复 。 因 此， 我 们 可 以 不 把 $t 寄存 器 用 做 临时 寄存 器 ， 而 是 将 其 用 作 被 调用 者 可 以 方便 使 
用 的 寄存 器 。 当 编译 器 遇 到 一 个 叶 过 程 时 ， 它 会 在 用 完 所 有 临时 寄存 器 之 后 ， 才 使 用 那些 必须 
保存 的 寄存 器 。 


Java 中 的 字符 和 字符 串 


Unicode 是 大 多 数 人 类 语言 中 字母 的 通用 编码 。 图 2-16 是 一 个 Unicode 字母 表 的 示例 ，Uni- 
code 中 字母 数 和 ASCII 编码 中 有 用 的 字符 数 一 样 多 。 为 了 更 有 包容 性 ，jJava 对 字符 使 用 Uni- 
code， 它 默认 使 用 16 位 来 表示 一 个 字符 。 


Latin Malayalam Tagbanwa General Punctuation | 
Greek Sinhala Khmer 











Spacing Modifier Letters 

























Cyrillic Thai Mongolian | Currency Symbols 

Armenian Lao Limbu Combining Diacritical Marks 
Hebrew Tibetan Tai Le Combining Marks for Symbols 
Arabic Myanmar Kangxi Radicals Superscripts and Subscripts 





















































Syriac Georgian "Hiragana Number Forms 
Thaana Hangul Jamo Katakana Mathematical Operators 
Devanagari Ethiopic Bopomofo Mathematical Alphanumeric Symbols 
Bengali Cherokee Kanbun Braille Patterns 
Gurmukhi Unified Canadian Aboriginal Syllabic | Shavian | Optical Character Recognition 
| Gujarati Ogham Osmanya Byzantine Musical Symbols 
Oriya Runic Cypriot Syllabary ea Symbols 
Tai Xuan Jing Symbols Arrows 
Hanunoo Yijing Hexagram Symbols Box Drawing 
Aegean Numbers Geometric Shapes 





图 2-16 Unicode 字母 表示 例 。Unicode 4. 0 版 本 有 超过 160 个 “ 块 ”， 每 个 块 是 一 个 符号 集 的 名 字 ， 且 是 
16 的 整数 倍 。 例 如 ， 和 希腊 字符 (Greek) 从 0370,e 开 始 ， 西 里 尔 字符 ( Cyrillic) 从 0400,e 开 始 。 
前 三 列 以 Unicode 的 数字 顺序 粗略 地 列 出 了 48 个 块 对 应 的 48 种 人 类 语言 。 最 后 一 列 中 的 16 个 
块 是 多 种 语言 ， 并 没有 按照 顺序 排列 。 默 认 的 是 16 位 编码 ， 称 为 UTF-16。 一 种 称 为 UTF -8 的 
变 长 编码 ， 将 ASCI 子 集 保持 为 8 位 ， 其 余 字 符 用 16 或 32 位 来 表示 。UTF-32 使 用 32 位 表示 一 
个 字符 。 更 多 内 容 请 参见 www. unicode. org 


MIPS 指令 集 包 含 显 式 的 读 取 和 存储 16 位 半 字 (halfword) 的 指令 。 读 取 半 字 指 令 1h 
(load half) 从 存储 器 中 读 出 一 个 半 字 ， 然 后 将 其 放 在 寄存 器 的 最 右边 16 位 。 与 读 取 字 节 类 似 ， 
读 取 半 字 指 令 lh 也 将 半 字 看 作 有 符号 数 并 进行 符号 扩展 ， 以 填充 寄存 器 左 侧 的 16 位。 而 无 符 
号 读 取 半 字 指令 lhu (load halfword unsigned) 将 半 字 看 作 无 符号 数 ， 与 1h 相 比 ， 这 条 指令 更 
加 常用 。 存 储 半 字 指令 sh (store half) 将 寄存 器 最 右边 的 16 位 写 人 存储 器 。 我 们 按照 下 面 的 
序列 来 复制 半 字 : 


lhu $t0,0($sp) # Read halfword (16 bits) from source 
sh $t0,0($gp) # Write halfword (16 bits) to destination 
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字符 串 是 一 个 标准 的 Java 类 ， 它 对 连接 、 比 较 、 转 换 的 方法 提供 了 专门 的 内 建 支 持 和 预定 
义 方法 。 与 C 不 同 的 是 ，Java 包含 一 个 字 来 给 出 字符 串 长 度 ， 这 和 Java 数组 相似 。 


邯 ) 精 解 MIPS 软件 试图 保持 栈 和 字 地 址 的 对 齐 ， 这 样 就 允许 程序 总 是 使 用 lw 和 sw (要 求 
必须 是 对 齐 的 ) 来 访问 栈 。 这 一 约定 意味 着 一 个 char 类 型 变量 在 栈 中 被 分 配 4 字 节 ， 尺 
管 它 并 不 需要 这 么 多 。 然 而 ， 一 个 C 字符 串 变 量 或 一 个 字 节 数 组 会 把 每 4 字 节 压缩 为 1 个 
字 ， 而 一 个 Java 字符 串 变 量 或 short 类 型 数组 会 把 每 2 个 半 字 压缩 为 1 个 字 。 

即 | 精 解 为 了 反映 web 的 全 球 性 特征 ， 当 今 的 大 部 分 web 页 面 采用 Unicode， 而 非 ASCII。 


加 小 测验 
1 . 下 面 关于 C 和 Java 中 字符 和 字符 串 的 陈述 哪些 是 正确 的 ? 
1.C 中 一 个 字符 串 占用 的 内 存 是 Java 中 同样 字符 串 的 一 半 。 
2. C 和 Java 中 字符 串 只 是 一 个 一 维 字 符 数 组 的 非 正规 名 字 。 
3. C 和 Java 中 采用 null (0) 来 标记 字符 串 的 结尾 。 
4. 对 字符 串 的 操作 ， 例 如 求 长 度 , 在 C 中 比 在 Java 中 更 快 。 
I. 下 面 哪 种 类 型 的 变量 存放 1 000 000 000,。 占 用 的 内 存 空 间 最 大 ? 
1. C 语言 的 int 
2. C 语言 的 string 
3. Java 的 string 


2. 10 MIPS 中 32 位 立即 数 和 寻 址 


虽然 保持 所 有 MIPS 指令 为 32 位 长 简化 了 硬件 ， 但 有 时 使 用 32 位 常量 或 32 位 地 址 更 加 方便 。 
本 节 先 介绍 使 用 较 大 常量 的 一 般 解 决 方法 ， 然 后 描述 了 用 于 分 支 和 跳 转 指令 寻 址 的 优化 措施 。 


2. 10. 1 32 位 立即 数 
尽管 常数 往往 比较 短 而 且 适 于 16 位 字段 , 但 有 时 它们 会 更 大 。MIPS 指令 集中 的 读 取 立 即 


数 高 位 指令 lui (load upper immediate) 专门 用 于 设置 寄存 器 中 常数 的 高 16 位 ， 允 许 后 续 指令 


设置 常数 的 低 16 位 。 图 2-17 描述 了 1ui 的 操作 。 


指令 lui $t0，255# 串 t0 is register 8 对 应 的 机 器 语言 : 


001111 00000 01000 0000000011111111 


执行 lui $t0，255 后 寄存 器 $t0 的 值 : 


0000000011111111 0000000000000000 


图 2-17 1ui 指令 的 效果 。1ui 指令 将 16 位 立即 数 常量 存放 到 寄存 器 的 高 16 位 ， 低 16 位 用 0 填充 





全 | 例题 加载 32 位 常量 
加 载 下 面 这 个 32 位 常量 到 寄存 器 $s0 的 MIPS 汇编 代码 是 什么 ? 


0000 0000 0011 1101 0000 1001 0000 0000 


四 答案 
首先 ， 我 们 使 用 命令 1ui 加 载 高 16 位 ， 十 进 制 表示 是 61 : 


lui $s0, 61 # 61 decimal = 0000 0000 0011 1101 binary 
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执行 上 面 的 指令 后 ， 寄 存 器 $s0 的 值 为 


0000 0000 0011 1101 0000 0000 0000 0000 
下 一 步 是 插入 低 16 位 ， 十 进 制 表 示 是 2304 : 
ori $s0, $s0, 2304 # 2304 decimal = 0000 1001 0000 0000 


寄存 器 $s0 中 的 最 终 值 就 是 所 需要 的 值 : 


0000 0000 0011 1101 0000 1001 0000 0000 口 


邯 ] 硬件 /软件 接口 ”编译 器 或 汇编 程序 必须 把 大 的 常数 分 解 为 若干 小 的 常数 ， 然 后 再 合并 到 
一 个 寄存 器 中 。 正 如 你 想象 的 那样 ， 立 即 数字 段 大 小 的 限制 ， 无 论 在 取 / 存 数 指令 中 对 存 
储 器 的 地 址 还 是 在 立即 数 指 令 中 对 常数 都 可 能 带 来 问题 。 如 果 这 项 工作 由 汇编 程序 来 做 ， 
如 MIPS 软件 ， 那 么 汇编 程序 必须 有 一 个 可 用 的 临时 寄存 器 来 创建 长 整数 值 。 这 是 给 汇编 
程序 保留 $at 寄存 器 的 一 个 原因 。 
因此 ，MIPS 机 器 语言 的 符号 表示 不 再 受到 硬件 限制 ， 但 仍 受 汇编 程序 构造 者 所 选择 
包括 的 内 容 的 限制 〈 见 2.12 节 )。 我 们 以 靠近 硬件 层 的 方式 解释 计算 机 的 体系 结构 ， 需 
要 注意 的 是 ， 我 们 所 使 用 汇编 程序 的 增强 扩展 语言 ， 在 实际 处 理 器 中 是 不 存在 的 。 


苑 | 精 解 ”构造 32 位 常数 时 必须 小 心 。 指 令 adqi 将 指令 最 左边 的 16 位 立即 数字 段 复制 到 一 
个 字 的 高 16 位 中 。2. 6 节 的 立即 数 座 辑 或 操作 (logical or immediate) 把 0 读 到 高 16 位 中 ， 
所 以 可 被 汇编 程序 用 于 和 lui 一 起 创建 32 位 常数 。 


2. 10.2 分 支 和 跳 转 中 的 寻 址 


MIPS 跳 转 指令 寻 址 采用 最 简单 的 寻 址 方式 。 它 们 使 用 最 后 一 种 MIPS 指令 格式 ， 称 为 J 
型 。J 型 除了 6 位 操作 码 之 外 ， 其 余 位 都 是 地 址 字段 。 所 以 

j 10000  # go to location 10000 
可 以 汇编 为 下 面 的 格式 (实际 中 要 更 加 复杂 一 些 ， 正 如 我 们 后 面 将 看 到 的 那样 ) : 
2 | 10000 | 
6 位 26 位 
其 中 跳 转 操作 码 的 值 为 2， 跳 转 地 址 为 10000。 

和 跳 转 指令 不 同 ， 条 件 分 支 指令 除了 规定 分 支 地 址 之 外 还 必须 指定 两 个 操作 数 。 因 此 

bne $s0,$sl,Exit # go to Exit if $s0 *# $sl 
被 汇编 为 下 面 的 指令 ， 只 保留 了 16 位 用 于 指定 分 支 地 址 : 

| 5 | 16 | 17 Exit 

6 位 5 位 5 位 16 位 

如 果 让 程序 地 址 适应 该 16 位 字段 ， 则 意味 着 任何 程序 都 不 能 大 于 2 "， 这 在 今天 来 说 太 
小 ， 因 此 是 一 种 很 不 现实 的 选择 。 另 一 个 可 选 的 办 法 是 指定 一 个 总 是 加 到 分 支 地 址 上 的 寄存 
器 ， 这 样 分 支 指令 的 地 址 可 按 如 下 方式 计算 : 

程序 计数 器 = 寄存 器 + 分支 地 址 

这 个 求 和 结果 允许 程序 的 大 小 达到 2”， 并 且 仍 能 使 用 条 件 分 支 ， 从 而 解决 了 分 支 地 址 大 
小 的 问题 。 随 之 而 来 的 问题 是 使 用 哪个 寄存 器 呢 ? 

答案 取决 于 条 件 分 支 是 如 何 使 用 的 。 条 件 分 支 在 循环 和 站 语句 中 都 可 以 找到 ， 它 们 倾向 于 
转 到 附近 的 指令 。 例 如 ， 在 SPEC 基准 测试 程序 中 ， 大 概 一 半 条 件 分 支 的 跳 转 距离 小 于 16 条 指 
令 。 因 为 程序 计数 器 (Program Counter，PC) 包含 当前 指令 的 地 址 ， 如 果 我 们 使 用 PC 来 作为 
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增加 地 址 的 寄存 器 ,我们 可 转移 到 离 当 前 指令 距离 为 +2” 个 字 的 地 方 。 几 乎 所 有 循环 和 站 语 句 
都 远 远 小 于 2" 个 字 ， 因 此 PC 是 一 个 理想 的 选择 。 

这 种 分 支 寻 址 形式 称 为 PC 相对 寻 址 (PC-relative addressing) 。 正 如 在 第 4 章 中 将 会 看 到 
的 那样 ， 提 前 递增 PC 来 指向 下 一 条 指令 会 对 硬件 带 来 很 多 方便 。 所 以 ，MIPS 寻 址 实际 上 是 相 
对 于 下 一 条 指令 的 地 址 (PC +4) ， 而 不 是 相对 于 当前 指令 (PC) 。 寻 址 附近 的 指令 是 加 速 大 概 
率 事件 的 另外 一 个 例子 。 


PC 相对 寻 址 : 一 种 寻 址 方式 ， 它 将 PC 和 指令 中 的 常数 相 加 作为 寻 址 结果 。 


像 近 期 的 大 多 数 计算 机 一 样 ，MIPS 对 所 有 条 件 分 支 使 用 PC 相对 寻 址 ， 因 为 这 些 指令 的 跳 

转 目标 一 般 都 比较 接近 其 分 支 地 址 。 另 一 方面 ， 跳 转 链接 指令 并 非 总 是 靠近 调用 者 的 过 程 ， 所 

以 它们 通常 使 用 其 他 寻 址 方式 。 因 此 ，MIPS 体系 结构 通过 使 用 跳 转 和 跳 转 链接 指令 的 本 型 格 

式 来 为 过 程 调用 提供 长 地 址 。 
因为 所 有 MIPS 指令 都 是 4 字 节 长 ， 所 以 在 PC 相对 寻 址 时 所 加 的 地 址 被 设计 为 字 地 址 而 不 

是 字 节 地 址 。 相 对 于 16 位 的 字 节 地 址 ，16 位 的 字 地 址 跳 转 范围 扩大 了 4 倍 。 同 样 ， 跳 转 指令 

的 26 位 字段 也 是 字 地 址 ， 它 可 以 表示 28 位 的 字 节 地 址 。 

著 | 精 解 因为 PC 是 32 位 ， 所 以 有 4 位 必须 来 自 于 跳 转 指令 之 外 的 其 他 地 方 。MIPS 跳 转 指 
令 仅仅 代替 PC 的 低 28 位 ， 而 高 4 位 保持 不 变 。 装 载 器 和 链接 器 ( 见 2.12 节 ) 必须 十 分 
小 心 以 避免 程序 超过 256 MB 的 寻 址 界限 (6 400 万 条 指令 ); 和 否则， 该 跳 转 必须 替换 为 寄 
存 器 跳 转 指令 ， 并 在 执行 前 使 用 其 他 指令 将 完整 的 32 位 地 址 加 载 到 一 个 寄存 器 中 。 


加 例题 在 机 器 语言 中 描述 分 支 偏 移 
假设 2.7. 1 节 的 while 循环 语句 被 编译 成 下 面 的 MIPS 汇编 代码 : 


Loop:S11 4$tl1,$s3 ,2 # Temp reg $tl = 4 * ji 
add 4$tl,$tl,$s6 # $t1l = address of save[i] 
1w $t0,0($t1) # Temp reg $t0 = save[i] 
bne $t0,$s5, Exit # go to Exit if save[i] * k 
addi $s3,$s3,1 #i=i+1 
j Loop # go to Loop 

Exit: 


如 果 我 们 假设 把 loop 的 开始 位 置 放 在 内 存 的 80 000 处 ,那么 该 循环 的 MIPS 机 器 代码 是 什 
么 呢 ? 
邯 ] 答案 


汇编 指令 和 它们 的 地 址 如 下 : 


























注意 MIPS 指令 使 用 字 节 寻 址 ， 所 以 相 邻 字 的 地 址 相差 4， 即 一 个 字 中 的 字 节 的 数量 。 第 4 
行 的 bne 指令 将 2 个 字 或 是 8 字 节 加 到 下 一 条 指令 地 址 (80016) 上 ,使 用 相对 下 一 条 指令 的 
偏 移 (8 +80016) 指明 跳 转 目标 ， 而 不 是 使 用 相对 该 分 支 指令 的 偏 移 (12 + 80012) ， 也 不 是 
使 用 完整 的 目的 地 址 (80024 ) 。 最 后 一 行 的 跳 转 指令 采用 完整 的 地 址 (20 000 x4 =80 000) ， 
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对 应 于 Loop 标签 。 DO 


团 | 硬件 /软件 接口 ”大 多 数 条 件 分 支 都 转移 到 一 个 附近 的 位 置 ， 但 有 时 也 会 转移 很 远 ， 距 离 
超过 条 件 分 支 指令 的 16 位 可 以 表示 的 范围 。 汇 编 器 的 解决 方法 就 像 处 理 对 大 地 址 或 大 常 
数 的 方法 一 样 : 插入 一 个 跳 转 到 分 支 目 标的 无 条 件 跳 转 ， 并 将 条 件 取 反 以 便 由 分 支 决定 是 
否 跳 过 该 无 条 件 跳 转 指令 。 


配 | 例题 * 远 距离 的 分 支 转 移 
假设 在 寄存 器 $s0 与 寄存 器 $sl 值 相等 时 需要 跳 转 ， 可 以 使 用 如 下 指令 : 


beq SO sl 上 1 


用 两 条 指令 替换 上 面 的 指令 ， 以 获得 更 远 的 转移 距离 。 


团 答案 


可 用 下 面 的 指令 替换 短 地 址 的 条 件 分 支 指令 : 
bne $Ss0，$s1，L2 
1 
L2: 口 


2. 10.3 ”MIPS 寻 址 模式 总 结 


多 种 不 同 的 寻 址 形式 一 般 统称 为 寻 址 模式 (addressing mode) ， 图 2-18 给 出 了 每 种 寻 址 模 
式 的 操作 数 如 何 识别 。MIPS 寻 址 模式 如 下 所 示 : 





图 2-18 MIPS 5 种 寻 址 模式 的 说 明 。 阴 影 部 分 为 操作 数 。 模 式 3 的 操作 数 在 内 存 中 ， 而 模式 2 的 操作 数 
是 寄存 器 。 注 意 ， 读 数 和 存 数 对 字 节 、 半 字 或 字 有 多 种 版 本 。 模 式 1 的 操作 数 是 指令 自身 的 16 
位 字段 。 模 式 4 和 模式 5 寻 址 的 指令 在 内 存 中 , 模式 4 把 16 位 地 址 左 移 2 位 与 PC 相 加 ， 而 模 
式 5 把 26 位 地 址 左 移 2 位 与 PC 计数 器 的 高 4 位 相连 。 注 意 ， 一 种 操作 可 能 可 以 使 用 多 种 寻 址 
模式 , 例如 ， 加 法 可 以 使 用 立即 数 寻 址 (addi) 和 寄存 器 寻 址 (add) 
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人 “好 址 模式 : 根据 对 操作 数 和 /或 地 址 的 使 用 不 同 加 以 区 分 的 多 种 寻 址 方式 中 的 一 种 。 


1) 立即 数 寻 址 (immediate addressing) ， 操 作 数 是 位 于 指令 自身 中 的 常数 。 
2) 寄存 器 寻 址 (register addressing) ， 操 作 数 是 寄存 器 . 
3) 基 址 寻 址 (base addressing) 或 偏 移 寻 址 ( displacement addressing) ， 操 作 数 在 内 存 中 ， 
其 地 址 是 指令 中 基 址 寄存 器 和 常数 的 和 。 
4) PC 相对 寻 址 (PC-relative addressing) ， 地 址 是 PC 和 指令 中 常数 的 和 。 
5) 的 直 衬 寻 址 (pseudodirect addressing) ， 跳 转 地 址 由 指令 中 26 位 字段 和 PC 高 位 相连 而 成 。 L116 | 


o 硬件 /软件 接口 虽然 我 们 把 MIPS 系统 结构 按 32 位 地 址 描述 ， 伍 是 几乎 所 有 的 微 处 理事 ( 包 
括 MIPS) 都 能 进行 64 位 地 址 扩展 ( 见 附录 玉 和 2.18 节 )。 这 些 扩 展 主要 是 针对 大 型 程序 的 需 
更 。 指令 集 的 扩展 使 得 体系 结构 发 展 的 同时 ， 保 持 软 件 和 下 一 代 体系 结构 的 向 上 兼容 性 。 117 ] 


2. 10.4 机 器 语言 解码 


有 时 候 必 须 通过 逆向 工程 将 机 器 语言 恢复 到 最 初 的 汇编 语言 ， 比 如 检查 “核心 转 储 ” 
(core dump) 时 。 图 2-19 描述 了 MIPS 机 器 语言 对 各 个 字段 的 编码 。 该 图 可 用 于 汇编 语言 和 机 
器 语言 之 间 的 手动 翻译 - 


即 例题 :机 器 码 解码 
下 面 这 条 机 器 指令 对 应 的 汇编 语言 语句 是 什么 ? 


00af8020hex 


本 答案 
第 一 步 是 将 十 六 进 制 转换 到 二 进 制 ， 以 便 找到 操作 码 字段 : 


(Bits: 31 28 26 5 2 0) 
0000 0000 1010 1111 1000 0000 0010 0000 


我 们 查看 操作 码 字段 来 决定 指令 的 操作 类 型 。 参 照 图 2-19， 当 31 ~29 位 是 000 且 28 ~26 
位 也 是 000 时 ， 它 是 R 型 指令 。 参照 图 2-20， 将 该 二 进 制 指令 按照 R 型 指令 字段 重新 排列 : 


op rs 这 蕊 rd shamt funct 
000000 00101 01111 10000 00000 100000 











op(31:26) 
~26 | | | 
2(010) 3(011) 4(100) $5(101) 6(110) 
0(000) Bltz/gez | 跳 转 分 支 eq 分 支 ne blez 






“| 小 于 无 符号 
立即 数 加 法 | addiu 小 于 立即 数 | 立 即 数 时 | andi 


置 位 


i 本 天 王磊 三 是 和 国 K 古 且 











图 2-19 MIPS 指令 解码 。 该 标记 根据 行 和 列 确定 字段 的 值 。 例 如 ， 图 的 顶部 在 第 4 行 (指令 的 第 31 ~29 
位 为 100,) 第 3 列 (指令 的 第 28 ~ 26 位 为 011,) 描述 了 取 字 指令 ， 因 此 相应 操作 码 字 段 (第 
31~26 位 ) 的 (R 型 ) 值 是 100011,。 下 划 线 表示 该 字段 在 其 他 地 方 被 使 用 。 例 如 ， 第 0 行 第 0 
列 (op =000000;) 的 R 型 在 图 的 底部 定义 。 因 此 ， 底 部 第 4 行 第 2 列 的 subtract 意味 着 指令 
funct 字段 (第 5 ~0 位 ) 是 100010; 而 操作 码 字段 (第 31 ~26 位 ) 是 000000,。 第 2 行 第 1 列 的 
FIPt 在 第 三 章 的 图 3 - 18 中 定义 。Bltz/gez 是 附录 B 中 4 条 指令 的 操作 码 : bltz、bgez、 
bltzal 和 bgezal。 附 录 A 涵盖 所 有 的 指令 
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op(31:26) 

ET | | | 
4(100) | 取 字 节 | 取 半 字 | 1wl | 取 字 Ee 符号 符号 | an 
5(101) | 存 字 节 存 半 字 swl 存 字 swr 
6(110) | 取 链 接 字 ]wcl | 
7(111) | 存 条 件 字 swcl 

op(31:26) =010000 (TLB), rs(25:21) 

2(010) ] 3(011) 4(100) 5(101) 6(110) 7(111) 
cfc0 mtc0 ctc0 
1 
op{(31:26) =000000(R 型 }，funct(5:0) 
| 0(000) 1(001) 2(010) 3(011) 4(100) 5(101) 6(110) 7(111) 

0(000) | 逻辑 左 移 逻辑 右 移 sllv srlv srav 
1(001) | jump register | jalr 
2(010) | mfhi mthi mflo 
3(011) | mult multu | div 
4(100) | add addu | subtract 
5(101) set 1.t. | 
6(110) | 
7(111) | | 

















算术 指令 型 





地 址 /立即 数 
目标 地 址 


图 2-20 MIPS 指令 的 格式 


图 2-19 的 底部 确定 了 R 型 指令 的 操作 。 在 本 例 中 ,5 ~3 位 是 100, 2 ~0 位 是 000， 因 此 该 
二 进 制 指令 为 add 指令 。 

下 面 我 们 通过 查找 字段 值 来 解码 指令 的 剩余 部 分 。rs 字段 的 十 进 制 值 是 5, rt 是 15, rd 是 
16 (shamt 未 使 用 ) 。 图 2-14 说 明 这 些 数字 表示 寄存 器 $al、$t7 和 $s0。 现 在 可 以 给 出 转换 
后 的 汇编 指令 : 

add $s0,$al,st7 

图 2-20 给 出 了 所 有 MIPS 指令 的 格式 。 第 2.2 节 的 图 2-1 汇总 了 本 章 出 现 的 所 有 汇编 指令 。 
其 他 MIPS 指令 主要 处 理 算术 运算 和 实数 ， 将 在 第 3 章 介 绍 。 0 


传输 、 分 支 和 立即 数 型 
跳 转 指令 型 
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车] 小 测验 
1. 在 MIPS 中 条 件 分 支 的 地 址 范围 (K =1024) 是 多 大 ? 
1. 地 址 在 0 ~64K -1 之 间 
2. 地 址 在 0 ~256K -1 之 间 
3. 分 支 前 后 地 址 范围 各 大 约 32K 
4. 分 支 前 后 地 址 范围 各 大 约 128K 
1. 在 MIPS 中 跳 转 和 跳 转 链接 指令 的 地 址 范围 (M = 1024K) 是 多 大 ? 
1. 地 址 在 0 ~64M -1 之 间 
2. 地 址 在 0 ~256M -1 之 间 
3. 分 支 前 后 地 址 范围 各 大 约 32M 
4. 分 支 前 后 地 址 范围 各 大 约 128M 
5. 由 PC 提供 高 6 位 地 址 的 64M 大 小 的 块 中 任意 地 址 
6. 由 PC 提供 高 4 位 地 址 的 256M 大 小 的 块 中 任意 地 址 
亚 . 机 器 指令 0000 0000,。 对 应 的 MIPS 汇编 语言 指令 是 什么 ? 
上 -要 
2. R 型 
3. addi 
sll 
. mfc0 
. 未 定义 的 操作 码 : 没有 对 应 0 的 合法 指令 


2. 11 并 行 与 指令 : 同步 - 


当 任 务 之 间 相 互 独立 的 时 候 ， 任 务 的 并 行 执行 是 比较 容易 的 。 但 往往 任务 之 间 需 要 相互 协 
作 ， 这 种 协作 通常 意味 着 某 些 任务 写 的 结果 是 其 他 任务 需要 读 取 的 值 。 这 时 执行 读 任务 的 一 方 
要 知道 写 任务 什么 时 候 完 成 了 写 操作 ， 才 能 安全 地 读 回 数据 。 就 是 说 ， 任 务 之 间 需 要 同步 
(synchronize) ， 否 则 就 有 发 生 数 据 竞 争 〈data race) 的 危险 ， 导 致 读数 据 错误 而 引起 程序 运行 
结果 的 改变 。 


人 数据 竞争 : 假如 来 自 不 同 线程 的 两 个 访 存 请 求 访问 同一 个 地 址 ， 它 们 连续 出 现 ， 并 且 至 少 
其 中 一 个 是 写 操作 ， 那 么 这 两 个 存储 访问 形成 数据 竞争 。 


例如 ， 回 忆 第 1 章 1. 8 节 所 提 到 的 8 个 记者 共同 写作 一 个 故事 的 例子 。 假 设 一 个 记者 要 写 总 “ 


结 ， 他 要 阅读 所 有 之 前 的 章节 。 因 此 ， 他 必须 知道 其 他 记者 什么 时 候 可 以 完成 各 自 的 章节 ， 然 后 
他 再 撰写 总 结 ， 这 样 他 就 不 用 担心 写 好 总 结 后 其 他 记者 再 对 各 自 章节 进行 修改 。 所 以 ,他 们 就 需 
要 很 好 地 同步 各 个 章节 撰写 和 阅读 的 过 程 ， 这 样 总 结 才能 和 前 面 章节 中 所 写 的 内 容 相 一 致 。 

在 计算 中 ， 同 步 机 制 要 依赖 硬件 提供 的 同步 指令 ， 这 些 指令 可 由 用 户 调用 。 本 节 我 们 重点 讨 
论 加 锁 (lock) 和 解锁 (unlock) 同步 操作 的 实现 。 采 用 加 锁 和 解锁 可 以 直接 创立 一 个 仅 允 许 单 
个 处 理 器 操作 的 区 域 ， 叫 作 互 斥 〈mutual exclusion) 区 。 更 复杂 的 同步 机 制 实现 也 与 此 类 似 。 

在 多 处 理 器 中 实现 同步 需要 一 组 硬件 原 语 ， 提 供 对 存储 单元 进行 原子 读 和 原子 写 的 能 力 ， 
使 得 在 进行 存储 器 原子 读 或 原子 写 操作 时 任何 其 他 操作 都 不 得 插入 。 如 果 没 有 这 样 的 硬件 原 
语 ， 那 么 建立 同步 机 制 的 代价 将 会 变 得 很 高 ， 并 且 随 着 处 理 器 数量 的 增加 情况 将 更 为 恶化 。 

建立 基本 硬件 原 语 有 若干 可 选 的 方案 ,这 些 方案 都 可 以 实现 原子 读 和 原子 写 的 功能 ， 并 能 
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用 某 种 方法 表示 这 些 操 作 是 否 为 原子 操作 。 通 常 ， 体 系 结构 设计 人 员 并 不 希望 基本 硬件 原 语 被 
用 户 使 用 ， 而 是 希望 这 些 原 语 被 系统 程序 员 用 来 建立 同步 库 ， 建 立 同步 库 的 过 程 通 常 很 复杂 且 
难度 较 大 。 

我 们 用 原子 交换 原 语 (atomic exchange 或 atomic swap) 来 演示 如 何 建立 基本 同步 机 制 。 这 
个 原 语 是 将 寄存 器 中 的 一 个 值 和 存储 器 中 的 一 个 值 相互 交换 。 

为 了 展示 该 原 语 建立 同步 原理 的 基本 过 程 ， 假 定 使 用 存储 器 中 某 个 单元 来 表示 一 个 锁 变 
量 : 其 数值 为 0 时 表示 解锁 ， 为 1 时 表示 加 锁 。 一 个 处 理 器 尝试 对 锁 单 元 加 锁 ， 方 法 是 用 一 个 
寄存 器 中 的 1 与 该 锁 单元 的 值 进行 交换 。 交 换 以 后 该 锁 单 元 的 新 值 为 1， 返 回 值 〈 锁 单元 的 原 
值 ) 如 果 是 1， 表 明 这 个 锁 已 被 其 他 处 理 器 占用 ; 否则 返回 值 为 0， 表示 锁 是 自由 的 ， 尝 试 加 
锁 成 功 。 此 时 锁 单 元 已 被 修改 成 1， 以 防止 任何 其 他 处 理 器 再 来 占用 。 

例如 ， 考 虑 有 两 个 处 理 器 同时 尝试 进行 交换 操作 ， 它 们 的 竞争 关系 就 会 被 破坏 。 因 为 其 中 
只 能 有 一 个 处 理 器 先 执行 交换 操作 ， 并 且 返 回 0。 那 么 第 二 个 处 理 器 执行 完 交 换 操作 的 时 候 返 
回 值 就 变 成 了 1。 用 交换 原 语 实现 同步 的 关键 是 操作 的 原子 性 : 交换 操作 是 不 可 分 割 的 ， 并 且 
由 硬件 对 两 个 同时 执行 的 交换 操作 进行 排序 。 有 可 能 两 个 处 理 器 同时 尝试 置 位 同步 变量 ， 但 这 
两 个 处 理 器 认为 它们 同时 成 功 设置 了 同步 变量 是 不 可 能 的 。 

实现 单个 的 原子 存储 器 操作 给 处 理 器 的 设计 者 带 来 了 若干 挑战 ， 因 为 这 要 求 存储 器 的 读 、 
写 操作 都 是 有 单条 不 可 被 中 断 的 指令 完成 。 

一 种 可 行 的 方法 是 采用 指令 对 ， 其 中 第 二 条 指令 返回 一 个 表明 这 对 指令 是 否 原 子 执行 的 标 
志 值 。 假 如 处 理 器 的 操作 都 是 在 这 对 指令 之 前 或 之 后 执行 ， 这 对 指令 就 是 原子 的 。 因 此 ， 当 一 
个 指令 对 是 原子 的 ， 没 有 哪个 处 理 器 能 改变 这 两 个 指令 执行 之 间 的 数据 值 。 

在 MIPS 处 理 器 中 这 一 指令 对 包括 一 条 叫 作 链接 取 数 〈load linked) 的 特殊 取 数 指令 和 一 条 
叫 作 条 件 存 数 (store conditional) 的 特殊 存 数 指令 。 我 们 顺序 地 使 用 这 两 条 指令 : 如 果 链 接 取 
数 指令 所 指定 的 锁 单 元 的 内 容 在 相同 地 址 的 条 件 存 数 指令 执行 前 已 被 改变 ， 那 么 条 件 存 数 指令 
就 执行 失败 。 我 们 定义 条 件 存 数 指令 完成 以 下 功能 : 保存 寄存 器 的 值 ， 并 且 如 果 执 行 成 功 则 将 
寄存 器 的 值 修改 为 1， 如 果 失 败 则 修改 为 0。 因 为 链接 取 数 指令 返回 锁 单 元 的 原始 值 ， 条 件 存 
数 指令 执行 成 功 的 时 候 才 返 回 1， 下 面 的 指令 序列 实现 了 存储 器 单元 的 原子 交换 。 存 储 器 单元 
的 地 址 由 $sl 中 的 值 指出 。 


again: addi $t0,$zero,1 ;copy locked value 
pg! $t1,0($s1) ;load linked 
SC $t0,0($s1) :store conditional 
beq $t0,$zero,again ;branch if store fails 
add $s4,$zero, $tl ;put load value in $s4 


在 ii 和 sc 两 条 指令 之 间 的 任何 时 候 有 处 理 器 插入 ， 并 修改 了 该 锁 单元 的 值 ， 指 令 sc 都 
会 将 $t0 置 为 0， 引 起 这 段 指令 序列 重新 执行 。 在 指令 序列 的 最 后 ， 寄 存 器 $s4 中 的 值 和 
$sl 指 向 的 锁 单元 的 值 发 生 了 原子 交换 。 


邯 | 精 解 尽管 我 们 讲述 的 同步 是 在 多 处 理 器 系统 中 的 ， 但 是 原子 操作 对 于 单个 处 理 器 上 和 运行 
的 操作 系统 在 处 理 多 个 进程 时 也 是 十 分 有 用 的 。 在 单 处 理 器 中 ， 为 了 保证 执行 不 被 任何 事 
件 所 干扰 ， 条 件 存 数 指令 在 处 理 器 两 条 指令 之 间 进 行 上 下 文 切换 (context switch) 时 也 会 
失败 〈 见 第 5 章 )。 
链接 取 数 /条 件 存 数 机 制 的 优点 是 : 可 以 通过 它们 来 构造 其 他 的 诸如 原子 比较 和 交换 
(atomic compare and swap) 或 者 原子 取 后 加 (atomic fetch-and-increment) 等 同步 原 语 。 这 
些 同步 原 语 可 以 被 用 在 一 些 并 行 编程 模型 中 。 这 些 同步 原 语 的 实现 需要 在 ii 指令 和 sc 
指令 之 间 插 入 更 多 的 指令 ， 但 不 需要 太 多 。 
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因为 在 链接 取 数 指令 执行 之 后 ， 任 何 试图 修改 锁 单 元 值 的 操作 或 者 任何 异常 都 将 导致 
条 件 存 数 指令 执行 失败 ， 所 以 在 选择 ii 和 sc 之 间 的 指令 时 就 要 格外 注意 。 特 别 需要 注 
意 的 是 ， 人 允许 使 用 的 并 且 不 会 造成 问题 的 只 有 寄存 器 - 寄存 器 指令 ， 而 处 理 器 可 能 由 于 重 
复 的 页 错误 而 导致 始终 无 法 完成 sc 指令 ， 从 而 使 处 理 器 处 于 一 种 死 锁 的 状态 。 另 外 ， 链 
接 取 数 和 条 件 存 数 之 间 的 指令 数 一 定 要 尽 可 能 少 ， 这 样 才 可 以 减少 不 相关 的 事件 或 者 竞争 
资源 的 处 理 器 所 引起 条 件 存 数 指令 执行 失败 的 频率 。 


著 ] 小 测验 
什么 时 候 才 会 用 到 像 链接 取 数 〈load linked) 和 条 件 存 数 (store conditional) 这 样 的 原 语 ? 
1. 当 一 个 并 行程 序 中 相互 协作 的 线程 需要 同步 以 获得 对 共享 数据 的 正确 的 读 写 行为 时 
2. 当 运行 在 单 处 理 器 上 的 相互 协作 的 处 理 过 程 需 要 同步 以 获得 对 共享 数据 的 正确 的 读 写 
行为 时 


2. 12 翻译 并 执行 程序 


本 节 描 述 了 将 存储 在 硬盘 文件 中 的 C 程序 转换 为 可 执行 程序 的 4 个 步骤 ， 图 2-21 所 示 是 
语言 翻译 的 层次 。 尽 管 某 些 系统 可 能 合并 部 分 步骤 以 减少 转换 时 间 ， 但 从 逻辑 上 讲 ， 这 4 个 步 
又 是 程序 转换 流程 所 必 经 的 4 个 阶段 。 本 节 将 根据 这 种 翻译 层次 进行 描述 。 







编译 器 





汇编 语言 程序 





目标 模块 : 机 器 语言 模块 


- 和 
f he i 


J 并 







目标 库 : 例 程序 机 器 语言 ) 


可 执行 代码 : 机 器 语言 程序 


图 2-21 C 语言 的 翻译 层次 。 用 高 级 语言 编写 的 程序 首先 需要 被 编译 成 为 汇编 语言 ， 然 后 被 汇编 成 机 器 
语言 组 成 的 目标 模块 。 链 接 器 将 多 个 模块 和 库 程序 组 合 在 一 起 解析 所 有 的 引用 。 加 载 器 将 可 执 
行程 序 加 载 到 内 存 的 适当 位 置 ， 然 后 处 理 器 就 可 以 执行 了 。 为 了 加 快 翻译 的 速度 ， 某 些 步骤 被 
跳 过 或 和 其 他 步骤 组 合 在 一 起 。 一 些 编译 器 直接 产生 目标 模块 ， 一 些 系统 使 用 带 链接 功能 的 加 
载 器 直接 完成 后 面 两 步 。 为 了 确定 文件 的 类 型 ，UNIX 使 用 文件 的 后 级 ，x. c 代表 c 源 文 件 ， 
x. s 表示 汇编 文件 ，x. o 表示 目标 文件 ，x. a 表示 静态 链接 库 ，x. so 表示 动态 链接 库 ， 默 
认 情 况 下 ，a. out 表示 可 执行 文件 。MS- DOS 使 用 后 缀 .Cc, .ASM，. 0BJ，. LIB，. DLL 和 
.EXE 来 完成 同样 的 功能 


2. 12. 1 编译 器 
编译 器 将 C 程序 转换 成 一 种 机 器 能 理解 的 符号 形式 的 汇编 语言 程序 (assembly language 
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program) 。 高 级 语言 编写 的 程序 比 使 用 汇编 语言 编写 的 代码 少 得 多 ， 所 以 程序 员 效 率 更 高 。 

1975 年 ， 因 为 存储 器 容量 较 小 并 且 编 译 器 效率 不 高 ， 所 以 许多 操作 系统 和 汇编 器 都 用 汇 
编 语言 (assembly language) 编写 。 如 今 单 DRAM 芯片 容量 增长 500 000 倍 ,减轻 了 人 们 对 程序 
大 小 的 关注 ， 并 且 今 天 优化 的 编译 器 能 够 产生 出 几乎 与 一 个 汇编 语言 专家 所 写 的 程序 一 样 好 的 
汇编 程序 ， 对 于 大 型 程序 有 时 甚至 效果 更 好 。 


全 ”汇编 语言 : 一 种 符号 语言 ， 能 被 翻译 成 二 进 制 的 机 器 语言 。 


2. 12. 2 汇编 器 


因为 汇编 语言 对 于 高 层次 软件 是 一 个 接口 ， 所 以 汇编 器 也 能 够 处 理 一 些 机 器 语言 指令 的 常 
见 变 种 ， 就 像 这 些 变 种 是 它 自己 的 指令 一 样 。 硬 件 不 需要 实现 这 些 指令 ， 然 而 它们 在 汇编 语言 
中 的 存在 简化 了 程序 转换 和 编程 。 这 类 指令 称 为 伪 指 令 〈pseudoinstruction ) 。 


纪 ” 伪 指令 : 汇编 语言 指令 的 一 个 变种 ,通常 被 看 作 一 条 汇编 指令 。 


如 前 所 述 ，MIPS 硬件 确保 寄存 器 $zero 保持 0 值 。 即 一 旦 使 用 寄存 器 $zero， 它 都 提供 
0， 而 且 程序 员 不 能 修改 寄存 器 $zero 的 值 。 寄 存 器 $zero 用 于 生成 汇编 语言 指令 move， 
move 的 功能 是 将 一 个 寄存 器 中 的 内 容 复制 到 另 一 个 中 。 因 此 即使 MIPS 体系 结构 中 不 存在 这 条 
指令 ，MIPS 汇编 器 也 能 够 识别 它 : 

move $t0 ,$t1 # register $t0 gets register $t1 

汇编 器 将 这 条 汇编 语言 指令 转换 成 功能 等 价 的 如 下 机 器 语言 指令 : 

add $t0,$zero,$tl # register $t0 gets 0 + register $t] 

在 2.7.1 节 的 例子 中 提 到 ，MIPS 汇编 器 将 blt (branch on less than， 小 于 则 分 支 ) 转换 成 
两 条 指令 : slt 和 bne。 其 他 例子 包括 bgt、bge 和 ble。 它 也 将 一 个 到 远 距 离 的 分 支 指令 拆 
成 一 个 分 支 指令 和 一 个 跳 转 指令 。 如 前 所 述 ，MIPS 汇编 器 允许 将 32 位 常量 加 载 到 一 个 寄存 器 
中 ， 不 用 考虑 立即 数 指令 的 16 位 限制 。 

总 的 来 说 ， 伪 指令 使 MIPS 拥有 比 硬件 所 实现 的 更 为 丰富 的 汇编 语言 指令 集 。 唯 一 的 代价 
是 保留 了 一 个 由 汇编 器 使 用 的 寄存 器 $at。 如 果 你 打算 写 汇 编程 序 ， 请 使 用 伪 指 令 来 简化 你 的 
任务 。 为 了 理解 MIPS 体系 结构 并 保证 获得 最 好 的 性 能 ， 可 以 学 习 图 2-1 和 图 2-19 中 真正 的 
MIPS 指令 。 

汇编 器 同样 接受 不 同 基 数 的 数字 。 除 了 二 进 制 和 十 进 制 ,它们 通常 还 使 用 比 二 进 制 更 为 紧 
凑 而 又 容易 转化 为 位 模式 的 基数 。MIPS 汇编 器 使 用 十 六 进 制 。 

这 种 特性 相当 方便 ， 但 是 汇编 器 的 主要 任务 是 汇编 成 机 器 代码 。 汇 编 器 将 汇编 语言 程序 转 
换 成 目标 文件 (object file) ， 它 包括 机 器 语言 指令 、 数 据 和 指令 正确 放 人 内存 所 需要 的 信息 。 

为 了 产生 汇编 语言 程序 中 每 条 指令 对 应 的 二 进 制 表 示 ， 汇 编 器 必须 处 理 所 有 标号 对 应 的 地 
址 。 汇 编 器 将 分 支 和 数据 传输 指令 中 用 到 的 标号 都 放 人 一 个 符号 表 (symbol table) 中 。 正 如 你 
所 想 的 ， 这 个 表 由 标号 和 地 址 成 对 构成 。 


多 ”符号 表 : 一 个 用 来 匹配 标记 名 和 指令 所 在 内 存 字 的 地 址 的 列表 。 


UNIX 系统 中 的 目标 文件 通常 包含 以 下 6 个 不 同 的 部 分 : 

。 目标 文件 头 ， 描 述 目标 文件 其 他 部 分 的 大 小 和 位 置 。 

。 代码 段 ， 包 含 机 器 语言 代码 。 

。 静态 数据 段 ， 包 含 在 程序 生命 周期 内 分 配 的 数据 。 (UNIX 系统 允许 程序 使 用 静态 数据 ， 它 
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存在 于 整个 程序 中 ; 也 允许 使 用 动态 数据 ， 它 随 程序 的 需要 而 增长 或 缩小 。 见 图 2-13。) 

。 重 定位 信息 ,标记 了 一 些 在 程序 加 载 进 内 存 时 依赖 于 绝对 地 址 的 指令 和 数据 。 

。 符号 表 ， 包 含 未 定义 的 剩余 标记 ， 如 外 部 引用 。 

。 调试 信息 ， 包 含 一 份 说 明 目 标 模块 如 何 编译 的 简明 描述 ， 这 样 ， 调 试 器 能 够 将 机 器 指 
令 关联 到 C 源 文件 ， 并 使 数据 结构 也 变 得 可 读 。 

下 一 小节 描述 了 如 何 链接 已 经 汇编 完成 的 子 程序 ， 如 库 程序 。 


2. 12. 3 ”链接 器 


到 目前 为 止 我 们 所 描述 的 内 容 表 明 ， 对 于 源 程 序 任意 一 行 代码 的 修改 都 需要 重新 编译 和 汇 
编 整 个 程序 。 全 部 重新 翻译 是 对 计算 资源 的 严重 浪费 。 这 种 重复 对 于 标准 库 程 序 尤为 浪费 ， 因 
为 程序 员 要 编译 和 汇编 那些 在 定义 上 几乎 从 未 改变 过 的 过 程 。 另 一 种 方法 是 单独 编译 和 汇编 每 
个 过 程 ， 以 使 得 某 一 行 代码 的 改变 只 需要 编译 和 汇编 一 个 过 程 。 这 种 方法 需要 一 个 新 的 系统 程 
序 ， 称 为 链接 编辑 器 或 (link editor) 链接 器 (linker), 它 把 所 有 独立 汇编 的 机 器 语言 程序 
“拼接 ”在 一 起 。 


人 “链接 器 : 也 称 链接 编辑 器 。 它 是 一 个 系统 程序 ， 把 各 个 独立 汇编 的 机 器 语言 程序 组 合 起 来 
并 且 解 决 所 有 未 定义 的 标记 ， 最 后 生成 可 执行 文件 。 


链接 器 的 工作 分 3 个 步骤 : 

1) 将 代码 和 数据 模块 象征 性 地 放 和 人 内 存 。 

2) 决定 数据 和 指令 标签 的 地 址 。 

3) 修补 内 部 和 外 部 引用 。 

链接 器 使 用 每 个 目标 模块 中 的 重 定位 信息 和 符号 表 ， 来 解析 所 有 未 定义 标签 。 这 种 引用 发 
生 在 分 支 指令 、 跳 转 指令 和 数据 寻 址 处 ， 所 以 这 个 程序 的 工作 非常 像 一 个 编辑 器 : 它 寻 找 所 有 
旧地 址 并 用 新 地 址 取代 它们 。 编 辑 是 “链接 编辑 器 ”或 链接 器 名 字 的 简称 。 采 用 链接 器 的 原 
因 是 修补 代码 比重 新 编译 和 汇编 要 快 得 多 。 

如 果 所 有 外 部 引用 都 解析 完 ， 链 接 器 接着 决定 每 个 模块 将 要 占用 的 内 存 位置 。 回 忆 2. 8.4 
节 的 图 2-13， 它 描述 了 MIPS 在 内 存 中 为 程序 和 数据 分 配 空间 的 方式 。 因 为 文件 是 单独 汇编 的 ， 
所 以 汇编 器 不 可 能 知道 该 模块 的 指令 和 数据 相对 于 其 他 模块 而 言 将 会 被 放 到 哪里 。 当 链接 器 将 
一 个 模块 放 到 内 存 中 的 时 候 ， 所 有 绝对 引用 (absolute reference) ， 即 与 寄存 器 无 关 的 内 存 地 址 
必须 重 定位 以 反映 它 的 真实 地 址 。 

链接 器 产生 一 个 可 执行 文件 (executable file)， 它 可 以 在 一 台 计算 机 上 运行 。 通常， 这 个 
文件 与 目标 文件 具有 相同 的 格式 ， 但 是 它 不 包含 未 解决 的 引用 。 具 有 部 分 链接 的 文件 是 可 能 
的 ， 如 库 程序 ， 在 目标 文件 中 仍 含 有 未 解决 的 地 址 。 


全 可 执行 文件 : 一 个 具有 目标 文件 格式 的 功能 程序 ， 不 包含 未 解决 的 引用 。 它 可 以 包含 符号 表 和 
调试 信息 。“ 剥离 的 可 执行 程序 ”不 包含 这 些 信息 ， 可 能 包含 加 载 器 所 需 的 重 定位 信息 。 


邯 | 例题 * 目标 文件 的 链接 

将 下 面 的 两 个 目标 文件 链接 。 给 出 最 终 可 执行 文件 中 前 几 条 指令 对 应 的 更 新 过 的 地 址 。 为 
了 便于 理解 ， 我 们 使 用 汇编 语言 来 表示 指令 ， 在 实际 文件 中 ， 这 些 指令 由 数字 表示 。 

注意 目标 文件 中 ， 我们 已 将 必须 在 链接 进程 中 更 新 的 地 址 和 标记 高 亮 显 示 了 ， 分 别 是 引用 
过 程 A 和 过 程 B 的 地 址 的 指令 ， 以 及 引用 数据 字 x 和 Y 的 地 址 的 指令 。 
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目标 文件 头 
代码 段 地 址 指令 
0 lw $a0,0 ($gp) | 
4 | jal 0 
数据 外 " ue | 
重 定位 信息 地 址 地 址 指令 类 型 依赖 
0 lw XxX 
4 jal B 
符号 表 标记 地 址 | 
XxX 让 = 
B | 
目标 文件 头 
名 学 过 程 B 
正文 大 小 200i6 
数据 大 小 3016 
代码 段 地 址 指令 
0 sw $al,0 ($gp) 
4 jal0 
数据 段 0 (Y) 
重 定位 信息 地 址 地 址 指令 类 型 依赖 
0 Sw ¥ 
4 jal A 
符号 表 标记 地 址 
Y = 
7 


加 答案 


过 程 A 需要 找到 1oad 指令 中 标号 为 x 的 变量 的 地 址 和 jal 指令 中 过 程 B 的 地 址 。 过 程 B 
需要 找到 store 指令 中 标号 为 Y 的 变量 的 地 址 和 jal 指令 中 过 程 A 的 地 址 。 

从 2.8.4 节 的 图 2-13 中 ,我 们 可 以 看 到 代码 段 从 地 址 40 0000,。* 开 始 而 数据 段 从 地 址 
1000 0000,6 开 始 。 过 程 A 的 正文 被 放置 在 第 一 个 地 址 而 它 的 数据 被 放置 在 第 二 个 地 址 。 过 程 
A 的 目标 文件 头 表明 其 代码 段 大 小 是 100,e 字 节 而 数据 段 大 小 是 20,s 字 节 ， 这 样 过 程 B 的 代码 段 
开始 地 址 就 是 400 100,。， 数 据 段 开始 地 址 是 1000 0020,6。 


可 执行 文件 头 














正文 大 小 30016 
数据 大 小 5016 
代码 段 地 址 指令 





可 执行 文件 头 














0040 010416 














地 址 





0040 000016 
0040 000416 








lw $a0,800016 ($gp) || 





jal 400 00016 











jal 40 010016 











0040 010016 





sw $al,802016 ( $gp) 












数据 自 | 
1000 000016 | (x) 
| 1000 002016 








(Y) 


图 2-13 也 表明 了 代码 段 的 起 始 地址 是 40 0000;.， 数 据 段 的 起 始 地址 是 1000 0000,.。 过 
程 A 的 正文 被 放置 在 第 一 个 地 址 而 它 的 数据 被 放置 在 第 二 个 地 址 。 过 程 A 的 目标 文件 头 表 明 
其 代码 段 大 小 是 100,。 字 节 而 数据 段 大 小 是 20。 字 节 ， 这 样 过 程 B 的 代码 段 开始 地 址 就 是 
400100,。， 数 据 段 开始 地 址 是 10000020,。。 = 

现在 链接 器 更 新 了 指令 的 地 址 字段 。 它 使 用 指令 类 型 字段 得 到 待 编 辑 地 址 的 格式 。 这 里 共 
有 两 种 类 型 : 

1) jal 类 型 比较 简单 。 因 为 它们 使 用 伪 直 接 寻 址 。 对 于 地 址 40 0004,。 处 的 jal， 其 地 
址 字段 是 40 0100,。 (程序 B 的 地 址 ) ， 而 地 址 40 0104,。 处 的 jal 的 地 址 字段 是 40 0000,。 
(程序 A 的 地 址 ) 。 

2) 存 取 数 指令 对 应 的 地 址 更 为 复杂 ， 因 为 它们 和 基 址 寄存 器 有 关 。 本 例 使 用 全 局 指针 作 
为 基 址 寄存 器 。 图 2-13 表明 $gp 的 初始 值 为 10008000,s。 为 了 得 到 地 址 10000000,。( 字 X 的 地 
址 ) ,我 们 设置 位 于 地 址 400000,。 处 的 lw 的 地 址 字段 中 为 80001。。 同 样 , 为 了 得 到 地 址 
10000020,。( 字 站 的 地 址 ) ， 可 以 设置 位 于 地 址 400100,。 处 的 sw 的 地 址 字段 中 为 8020,。。 0 


配 精 解 晶 忆 前 面 讲 过 MIPS 指令 是 按 字 对 齐 的 。 所 以 jal 指令 丢弃 最 右 侧 2 位 来 增加 指令 
寻 址 范围 。 这 样 ， 它 就 可 以 使 朋 26 位 来 产生 一 个 28 位 的 字 节 地 址 。 因 此 ， 本 例 中 jal 指 
令 的 低 26 位 存放 的 实际 地 址 是 10 0040,。， 而 不 是 40 0100,。。 


2. 12.4 加载 器 


现在 可 执行 文件 已 经 在 磁盘 中 ， 操 作 系统 可 以 将 其 读 人 内 存 并 启动 执行 它 。 在 UNIX 系统 
中 ， 加 载 器 (loader) 按照 如 下 步骤 工作 : 

1) 读 取 可 执行 文件 头 来 确定 代码 段 和 数据 段 的 大 小 。 

2) 为 正文 和 数据 创建 一 个 足够 大 的 地 址 空间 。 

3) 将 可 执行 文件 中 的 指令 和 数据 复制 到 内 存 中 。 

4) 把 主 程序 的 参数 (如 果 存 在 ) 复制 到 栈 顶 。 

5) 初始 化 机 器 寄存 器 ， 将 栈 指针 指向 第 一 个 空位 置 。 

6) 跳 转 到 启动 例 程 ， 它 将 参数 复制 到 参数 寄存 器 并 且 调 用 程序 的 main 函数 。 当 main 函 
数 返 回 时 ， 启 动 例 程 通过 系统 调用 exit 终止 程序 。 


2 ”加载 器 : 把 目标 程序 装载 到 内 存 中 以 准备 运行 的 系统 程序 。 
附录 A 中 的 A.3 节 和 A.4 节 更 加 详细 地 描述 了 链接 器 和 加 载 器 。 


2. 12.5 动态 链接 库 


事实 上 ， 计 算 机 科学 中 的 每 个 问题 可 以 在 其 他 层 决 上 间接 地 和 解决。 
一 一 Duoif Wieeler 
本 节 的 第 一 部 分 将 描述 程序 运行 前 链接 库 文件 的 传统 方法 。 尽 管 这 种 静态 的 方法 是 最 快 的 
调用 库 程 序 的 办 法 ， 但 它 有 以 下 缺点 : 

。 库 程 序 成 为 可 执行 代码 的 一 部 分 。 这 样 如 果 发 布 新 版 本 的 库 以 修正 一 些 错 误 或 支持 新 
的 硬件 设备 ， 静 态 链 接 的 程序 中 使 用 的 还 是 旧版 本 。 

e 在 程序 运行 时 ， 尽 管 可 能 不 会 使 用 库 中 的 所 有 部 分 , 但 它们 还 是 会 被 全 部 加 载 进 来 。 
相对 程序 而 言 ， 库 可 能 会 很 大 ， 例如， 标准 的 C 库 有 2.5MB。 


便 ” 原 书 中 表格 前 后 的 文字 除开 头 外 一 模 一 样 - 此 处 按 原 书 翻译 。 一 一 译 者 注 
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这 些 不 足 导 致 了 动态 链接 库 ( dynamically linked library，DLL) 的 产生 ， 也 就 是 说 ， 直 到 程 
序 运 行 的 时 候 ， 这 些 库 例 程 才 会 被 链接 并 加 载 。 程 序 和 库 例 程 都 会 在 非 局 部 的 过 程 和 名 字 中 保 
存 额外 的 信息 。 在 最 初版 本 的 DLL 中 ， 加 载 器 调用 一 个 动态 链接 器 ， 使 用 文件 中 的 额外 信息 
来 找到 适当 的 库 并 且 更 新 所 有 外 部 引用 。 


”动态 链接 库 : 在 程序 执行 过 程 中 才 被 链接 的 库 例 程 。 


最 初版 本 DLL 的 缺点 是 它 仍 链接 库 中 所 有 在 程序 运行 时 可 能 调用 的 例 程 ， 而 不 是 仅仅 链 
接 程序 运行 时 实际 调用 的 例 程 。 由 此 产生 DLL 的 晚 过 程 链 接 (lazy procedure linkage) 版 本 ， 该 
版 本 中 每 个 例 程 只 有 在 它 被 调用 后 才 被 链接 。 

就 像 这 个 领域 中 的 许多 创新 一 样 ， 这 个 技巧 采用 了 一 种 间接 的 方法 。 图 2-22 展示 了 该 技 
术 。 它 以 一 个 非 局 部 例 程 开始 ， 该 例 程 的 末尾 调用 了 一 组 虚 例 程 ， 每 个 非 局 部 例 程 都 有 一 个 人 
口 。 每 个 虚 和 人 口 都 包含 一 个 间接 跳 转 。 


动态 链接 器 /加 载 器 
重 映射 DLL 例 





a) 第 一 次 调用 DLL 例 程 b) DLL 例 程 的 后 续 调 用 


图 2-22 通过 晚 过 程 链接 方式 链接 动态 链接 库 。a) 第 一 次 调用 DLL 的 步骤 ; b) 在 随后 的 调用 中 ， 查 找 
例 程 、 重 映射 例 程 和 链接 例 程 被 跳 过 。 我 们 将 在 第 5 章 看 到 ， 操 作 系 统 通 过 虚拟 内 存 管理 方式 
来 重 映射 例 程 以 避免 复制 所 需 例 程 


第 一 次 调用 库 例 程 的 时 候 ， 程 序 首先 调用 虚 和 人口 ， 然 后 执行 间接 跳 转 。 它 通过 将 一 个 数字 
放 入 寄存 器 来 识别 所 需 的 库 例 程 ， 然 后 跳 转 到 动态 链接 器 或 加 载 器 。 链 接 器 或 加 载 器 找到 所 需 
的 例 程 ， 将 其 重 映射 并 改变 间接 跳 转 位 置 的 地 址 ， 使 其 指向 这 个 例 程 。 然 后 跳 转 到 这 个 例 程 。 
这 个 例 程 完成 时 ， 将 返回 到 初始 调用 点 。 此 后 ， 它 都 会 间接 跳 转 到 这 个 例 程 而 不 去 执行 额外 的 
中 间 过 程 。 
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总 的 来 说 ，DLL 需要 额外 的 空间 来 存储 动态 链接 的 信息 ,但 是 不 需要 复制 或 链接 整个 库 。 
仅仅 在 例 程 的 第 一 次 调用 时 开销 较 大 ， 此 后 就 只 需 一 个 间接 跳 转 。 注 意 ， 从 库 返 回 的 操作 不 需 
要 额外 的 开销 。 微 软 的 Windows 广泛 地 依赖 动态 链接 库 ， 如 今 在 UNIX 系统 中 程序 执行 的 默认 
方式 也 是 使 用 动态 链接 库 。 


2. 12.6 启动 一 个 Java 程序 


前 面 讨论 了 程序 执行 的 传统 模式 ， 重 点 是 以 一 个 特定 的 指令 集体 系 结构 甚至 这 个 体系 结构 的 特 
定 实现 为 目标 的 程序 的 快速 执行 。 实 际 上 ， 可 以 像 C 那样 来 执行 Java 程序 。 然 而 ，Java 是 为 了 不 同 
的 目标 而 发 明 的 ， 其 中 之 一 就 是 能 够 安全 地 运行 在 每 台 计算 机 上 ， 尽 管 这 可 能 延长 执行 时 间 。 

图 2-23 展示 了 典型 的 Java 翻译 和 运 
行 步骤 。Java 程序 会 首先 被 编译 成 易于 
解释 的 指令 序列 一 一 Java 字 节 码 (Java 
bytecode) 指令 集 ( 见 2.15 节 ) ， 而 不 是 
编译 成 目标 计算 机 可 识别 的 汇编 语言 。 
这 个 指令 集 被 设计 得 非常 接近 Java 语言 ， @ 有 村 放 》 99 
这 样 ， 编 译 步骤 相对 简单 ， 事 实 上 它 没 es 7 
有 做 任何 优化 。 就 像 C 语言 编译 器 那样 ， 


Java 编译 器 会 检查 数据 类 型 并 且 为 每 种 图 2-23 Java 的 翻译 层次 。 一 个 Java 程序 首先 被 编译 成 





类 型 提供 正确 的 操作 。Java 程序 将 转化 一 个 二 进 制版 本 的 Java 字 节 码 形式 ， 其 中 由 编 

成 这 些 字 节 码 的 二 进 制 形式 。 译 器 定义 所 有 的 地 址 。 此 时 ，Java 程序 已 可 在 

解释 器 上 运行 ， 称 为 Java 虚拟 机 (JVM) 。 在 

”Java 字 节 码 : 为 了 解释 Java 程序 而 程序 运行 的 时 候 ，JVM 链接 Java 库 中 一 些 需 要 

设计 的 指令 集中 的 指令 。 调用 的 方法 。 为 了 得 到 更 好 的 性 能 ，JVM 能 够 

调用 即时 (just in time，JIT) 编译 器 ， 在 运行 

一 个 叫 作 Java 虚拟 机 (Java Virtual 它 的 机 器 上 能 够 选择 性 地 把 一 些 方法 编译 成 窒 
Machine，JVM) 的 软件 解释 器 能 够 执行 主机 上 的 本 地 机 器 语言 


Java 字 节 码 文件 。 解 释 器 是 一 个 用 来 模拟 指令 集体 系 结构 的 程序 。 例 如 ， 本 书 所 使 用 的 MIPS 
模拟 器 就 是 一 个 解释 器 。 由 于 翻译 非常 简单 ， 所 以 地 址 可 以 由 编译 器 填写 或 在 运行 时 被 VM 
发 现 ， 不 需要 再 单独 进行 汇编 。 


十 Java 虚拟 机 : 解释 Java 字 节 码 的 程序 。 


解释 的 优势 是 可 移植 性 。 软 件 实现 的 Java 虚拟 机 的 可 用 性 意味 着 在 Java 公布 以 后 ， 大 部 
分 人 都 可 以 立即 编写 和 运行 Java 程序 。 今 天 Java 虚拟 机 可 以 用 在 从 手机 到 网 络 浏览 器 等 数 亿 
的 设备 中 。 

解释 的 不 足 是 性 能 较 差 。20 世纪 80 年 代 和 90 年 代 解 释 在 执行 性 能 上 的 飞速 提高 使 它 可 用 
于 很 多 重要 的 应 用 程序 ， 但 是 与 传统 的 编译 好 的 C 程序 相 比 ，10 倍 的 性 能 差距 使 Java 对 一 些 
应 用 程序 毫 无 吸引 力 。 

为 了 既 保 持 可 移植 性 又 提高 执行 速度 ， 开 发 Java 的 下 一 阶段 目标 是 实现 程序 执行 的 同时 可 
以 进行 翻译 的 编译 器 。 这 个 即时 编译 器 (Just In Time complier) 通过 记录 运行 的 程序 来 找到 称 
为 “热点 ”的 方法 ， 然 后 将 它们 直接 编译 成 Java 虚拟 机 运行 的 宿主 机 的 指令 序列 ， 编 译 过 的 
部 分 保存 起 来 以 便 下 次 程序 运行 时 调用 ， 这样， 以 后 每 次 运行 会 更 快 。 解 释 和 编译 的 平衡 随 着 
时 间 的 推移 逐步 形成 ， 届 时 ， 经 常 运行 的 Java 程序 的 解释 开销 变 得 非常 小 。 
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区 “即时 编译 器 : 一 类 通用 编译 器 的 名 称 ， 编 译 器 能 够 在 运行 时 将 解释 的 代码 段 翻译 成 宿主 计 
算 机 上 的 机 器 语言 。 


随 着 计算 机 的 速度 越 来 越 快 ， 编 译 器 能 做 的 事情 也 越 来 越 多 。 而 随 着 研究 者 不 断 地 发 明 更 
好 的 技术 来 编译 Java 程序 ，Java 与 C 或 C++ 在 性 能 上 的 差距 越 来 越 小 。2. 15 节 将 进一步 介绍 
Java 程序 、Java 字 节 人 码 、JVM 和 JIT 编译 器 。 


印 ] 小 测验 
对 Java 设计 者 来 说 ， 你 认为 与 翻译 器 相 比 ， 解 释 器 在 哪些 方面 的 优点 是 最 重要 的 ? 
1. 解释 器 便于 编写 。 
2. 更 准确 的 错误 消息 。 
3. 更 少 的 目标 代码 。 
4. 机 器 独立 性 。 


2. 13 ”以 一 个 C 排序 程序 作为 完整 的 例子 


以 片断 的 方式 展示 汇编 代码 的 危险 之 处 在 于 ， 你 无 法 知道 整个 汇编 语言 程序 的 全 貌 。 本 
节 ， 我 们 给 出 了 两 个 C 过 程 对 应 的 MIPS 代码 : 一 个 用 于 交换 (swap) 数组 的 元 素 ， 男 一 个 用 
于 对 数组 元 素 排 序 ( sort) 。 


2. 13.1 swap 过程 


我 们 从 图 2-24 中 的 过 程 swap 开始 。 这 个 过 程 简单 地 交 [一 一 一 一 
换 内 存 中 两 个 位 置 的 内 容 。 我 们 按照 以 下 常见 的 步 又 把 它 从 | void swapCint *[，int k) 


C 程序 手动 翻译 为 汇编 程序 : int temp; 
1) 为 程序 变量 分 配 寄存 器 。 四 二 红河 
2) 为 过 程 体 生 成 汇编 代码 。 v[k+l] = temp; 





3) 保存 过 程 调用 间 的 寄存 器 。 
本 小 节 将 按照 这 三 个 步骤 描述 swap 程序 ， 在 最 后 把 它 
们 总 结 在 一 起 。 


2-24 一 个 交换 内 存 中 两 个 不 


同位 置 所 存 的 数值 的 C 
1. 为 swap 分 配 寄存 器 过 程 。 本 小 节 要 在 排序 
如 2.8 节 所 述 ， 在 MIPS 中 ， 实 现 参数 传递 通常 使 用 寄 的 例子 中 使 用 这 个 过 程 


存 器 $a0、$al 、$a2 、$a3。 由 于 swap 只 需要 两 个 参数 ，v 和 k， 它 们 将 被 分 配 在 寄存 器 
$a0 和 $al 中 。 由 于 swap 是 一 个 叶 过 程 ( 见 2.8.2 节 )， 所 以 我 们 为 唯一 的 剩余 变量 temp 分 
配 寄 存 器 $t0 。 这 些 寄存 器 的 分 配 与 图 2-24 中 的 swap 过 程 的 第 一 部 分 变量 的 声明 相对 应 。 
2. 为 swap 过 程 体 生成 代码 

swap 剩余 部 分 的 C 代码 如 下 所 示 : 

temp = v[k]; 


v[Lk] = vLk+1]; 
v[k+1] = temp; 


回忆 一 下 MIPS 是 按 字 节 在 内 存 中 寻 址 的 ， 字 由 4 字 节 组 成 。 因 此 我 们 需要 把 k 乘 以 4， 
再 与 地 址 相 加 。 忘 记 连 续 的 字 之 间 的 地 址 相差 4 而 不 是 1， 是 汇编 语言 程序 设计 中 常见 的 错误 。 
因此 获得 v [kx] 地 址 的 第 一 步 就 是 通过 左 移 2 位 来 使 x 乘 以 4: 
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sl1l $tl, $al,2 # reg $tl = k *4 
add S$tl, $a0,$tl ##reg $tl =v+(k* 4) 
# reg $tl has the address of v[k] 


接 下 来 使 用 $tl 来 取 v [k] 的 值 ， 在 使 $tl 加 4 得 到 v [k+1] 的 地 址 : 
1w $t0, 0($t1) # reg $t0 (temp) = v[k] 
1w $t2, 4($t1) # reg $t2 = v[k + 1] 

# refers to next element of v 


最 后 将 $t0 和 $t2 存储 到 需要 交换 数据 的 地 址 中 : 
SW $t2, 0($t1) # v[k] = reg $t2 
Sw $t0, 4($t1) # v[k+l] = reg $t0 (temp) 


至 此 ， 我 们 已 经 为 该 过 程 分 配 了 寄存 器 并 翻译 好 了 程序 体 的 代码 。 保 存在 swap 中 使 用 的 
保存 寄存 器 的 代码 还 没有 完成 。 但 是 ， 由 于 这 是 一 个 叶 过 程 ， 并 没有 使 用 保存 寄存 器 ， 所 以 没 
有 需要 保留 的 东西 。 

3. 完整 的 swap 程序 

现在 我 们 已 经 得 到 完整 的 例 程 了 ， 包 括 程序 标号 和 返回 的 跳 转 。 为 了 方便 读者 的 理解 ， 在 

图 2-25 中 ， 我 们 标明 了 过 程 中 每 个 代码 块 的 目的 。 























过 程 体 
swap: S11 $t1,，$al，2 #reg $tl=k*4 
add $t1, $a0, $t1 #reg $tl=v+(k*4) 
# reg $tl has the address of v[k] 
Iw $t0,， 0($t1) # reg $t0 (temp)= v[k] 
] WwW $t2, 4($t1) #reg $t2=v[k+1] 
# refers to next element of v 
sw $t2,. 00$t1) #v[k] = reg $t2 
Sw $t0, 4($t1) #v[k+1] = reg $t0 (temp) 
过 程 返回 
jr $ra #return to calling routine | 
图 2-25 图 2-24 中 swap 过 程 的 MIPS 汇编 代码 


2. 13.2 sort 过程 


为 保证 你 能 够 认识 到 汇编 语言 编程 的 严格 性 ， 我 们 提供 了 第 二 个 更 长 的 例子 。 在 这 个 例子 
中 ， 我 们 将 编写 一 个 调用 swap 过 程 的 例 程 。 这 个 例 程 对 数组 中 的 整数 进行 排序 ,使 用 的 是 冒 
泡 或 交换 排序 算法 ， 这 种 排序 算法 虽然 不 是 最 快 的 ， 但 却 是 最 简单 的 。 图 2-26 给 出 了 该 程序 
的 C 代码 。 我 们 还 是 使 用 几 个 步骤 来 演示 翻译 的 过 程 ， 最 后 再 把 它们 总 结 到 一 起 。 


void sort (int v[], int n) 
{ 


he 
for (i = 0; i < n; i += 1)1 
for (j=i =- 1; j >= 0 && vj > v[j + 1]; j =1) { 
swap(v,j); 





图 2-26 一 个 对 数组 v 中 元 素 进行 排序 的 C 程序 


1. sort 的 寄存 器 分 配 
为 过 程 sort 的 两 个 参数 v 和 n 分 配 参 数 寄存 器 $a0 和 $al， 为 变量 i 和 j 分 别 分 配 寄 
存 器 $s0 和 $sl。 
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2. 为 sort 过 程 体 生 成 代码 


过 程 体 包含 两 个 垦 套 的 for 循环 和 一 个 有 参数 的 swap 调用 。 我 们 将 从 外 到 内 来 展开 代码 。 

第 一 步 来 翻译 最 外 面 的 for 循环 。 

for (1 = 0 1 <m i 4= 1) 4 

回忆 C 语言 中 for 的 声明 有 三 个 参数 : 初始 值 、 循 环 判 断 条 件 和 和 迭代 增 量 。for 语句 的 第 一 
部 分 是 将 i 初始 化 为 0， 这 需要 一 条 指令 ， 

move $s0, $zero # i=0 

(请 记 住 move 是 为 了 方便 汇编 程序 员 而 由 汇编 器 提供 的 伪 指 令 ， 见 2. 12.2 节 。) for 语句 
的 最 后 部 分 ， 需 要 一 条 语句 来 增加 i: 

135 addi $s0, $s0, 1 # i += 1 

循环 要 在 条 件 i <n 非 真 的 时 候 退 出 ， 换 句 话 说 ， 当 izn 时 循环 退出 。 如 果 $s0 < $al ， 
那么 小 于 则 置 位 指令 将 $t0 置 1， 否 则 置 0。 因 为 我 们 要 测试 $s0 三 $al， 所 以 当 寄 存 器 $t0 
为 0 时 ， 执 行 分 支 指令 。 这 需要 两 条 指令 : 


forltst:slt $t0, $s0, $al # reg $t0 = 0 if $s0 > $al (izn) 
beq $t0, $zero,exitl # go to exitl if $s0 > $al (i>n) 


循环 的 底部 仅仅 需要 跳 回 循环 判断 的 地 方 : 


j forltst # jump to test of outer loop 

exitl: 
第 一 个 for 循环 的 框架 代码 为 

move $s0, $zero #1i=0 
forltst:slt $t0, $s0, $al # reg $t0 = 0 if $s0 > $al (i>n) 

beq $t0, $zero,exitl # go to exitl if $s0 > $al (i2n) 

(body of first for loop) 
addi $s0, $s0, 1 # i+=1 
Jj forltst # jump to test of outer loop 


exitl: 

(后 面 的 练习 将 会 进一步 探索 为 类 似 的 循环 编写 更 快 的 代码 。) 
第 二 个 for 循环 的 C 语句 如 下 : 

for (j =i -1;j>=0 && vej] >vj+ll; j -=1) i{ 


这 个 循环 的 初始 化 部 分 仍然 是 一 条 指令 : 


addi $sl1, $s0, -1 关 j=i-1 
循环 末尾 j 的 自 减 ( 减 1) 也 是 一 条 指令 : 
addi $51, $sS1l1, -1 二 -== 1 
循环 判断 由 两 个 部 分 组 成 。 任 何 一 个 条 件 为 假 就 退出 循环 ， 所 以 第 一 个 条 件 如 果 为 假 
(j <0) 就 要 退出 循环 : 
for2tst: silti $t0; $s1, 0 # reg $t0 = 1 if $s1 < 0 (j < 0) 
bne $t0, $zero, exit2 # go to exit2 if $s1 < 0 (j < 0) 
136 这 将 跳 过 第 二 个 条 件 测试 ， 如 果 没 有 跳 过 ， 则 j 宇 0。 


第 二 个 测试 条 件 当 v[j] >v[j +1] 非 真 的 时 候 退 出 , 或 v[j]<vLj +1] 时 退出 。 为 得 
到 地 址 ,我们 首先 将 j 乘 以 4 我们 需要 字 节 地 址 ) ， 然 后 将 它 与 v 的 基地 址 相 加 : 


s11 $t1l, $sl1, 2 # reg$tl = jx 4 
add $t2, $a0, $tl # reg $t2 =VvV+ (jx 4) 


现在 取 v[jj]: 


Iw $t3, 0($t2) # reg $t3 = v[j] 


因为 我 们 知道 第 二 个 元 素 恰好 是 下 一 个 字 ， 所 以 我 们 将 寄存 器 $t2 值 加 4， 得 到 v[j +1] 
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的 地 址 : 


1w $t4, 4($t2) # reg $t4 = v[j + 1] 

测试 vLj]v<Lj +1] 与 测试 vj +1] 宇 vLj] 相 同 ， 所 以 测试 退出 的 两 条 指令 如 下 : 
slt $t0, $t4, $t3 # reg $t0 = 0 if $t4 > $t3 

beqa $t0, $zero,. exit2 # go to exit2 if $t4 > $t3 

循环 末尾 跳 回 到 内 层 循环 测试 处 : 

j for2tst  # jump to test of inner loop 


将 这 些 片 段 组 合 到 一 起 ， 可 得 第 二 个 for 循环 的 框架 如 下 : 
addi $sl, $s0, -1 #j=i-1l 


for2tst:slti $t0, $s1, 0 # reg $St0 = 1 if $s1 < 0 (j<«0) 
bne $t0, $zero, exit2 # go to exit2 if $sl1 < 0 (j < 0) 
sll $tl, $sl, 2 # reg $Stl1 =j*4 
add $t2, $a0, $tl # reg $St2 =v+(j*4) 
lIw $t3, 0($t2) # reg $t3 = v[j] 
Iw S$t4, 4($t2) # reg $t4 = v[j + 1] 


slt $t0, $t4, $t3 # reg $t0 = 0 if $t4 > $t3 
beq $t0, $zero, exit2 # go to.exit2 if $t4 > $t3 


(body of second for loop) 
addi $sl, $sl, -1 #j -=1 


j for2tst # jump to test of inner loop 
exit2: 


3. sort 中 的 过 程 调用 
下 一 步 翻 译 第 二 个 for 循环 的 循环 体 : 


Swap(v,j):; 
调用 swap 很 容易 : 
jal swap 


4. sort 中 的 参数 传递 

当 我 们 想 传递 参数 时 间 题 出 现 了 ， 因 为 sort 过 程 需 要 使 用 寄存 器 $a0 和 $al 中 的 值 ， 
而 swap 过 程 需要 将 它 的 参数 放 人 这 些 寄存 器 。 一 种 解决 办 法 是 在 过 程 执行 的 早期 将 sort 的 
参数 复制 到 其 他 的 寄存 器 中 ,使 swap 过 程 可 以 使 用 寄存 器 $a0 和 寄存 器 $al 。( 这 个 复制 的 
过 程 比 在 栈 中 保存 后 再 取 回 要 快 得 多 。) 在 过 程 中 我 们 首先 将 寄存 器 $a0 和 $al 的 值 复制 到 寄 


存 器 $s2 和 $s3。 
move $s2, $a0 # copy parameter $a0 into $s2 
move $s3, $al # copy parameter $al into $s3 
然后 用 下 面 两 条 指令 将 参数 传递 给 swap 
move $a0, $s2 # first swap parameter is vy 
move $al, $sl # second swap parameter is j 


5. 在 sort 中 保留 寄存 器 

仅 剩 保存 和 恢复 寄存 器 值 的 代码 了 。 因 为 sort 是 一 个 过 程 并 且 它 要 递归 使 用 ， 所 以 很 明 
显 需要 用 寄存 器 $ra 保存 返回 地 址 。sort 过 程 还 使 用 了 $s0、$sl1、$s2 和 $s3 保存 寄存 
器 ， 它 们 的 值 也 必须 被 保存 。 所 以 sort 过 程 头 如 下 : 


addi $sp,$sp,-20 # make room on stack for 5 registers 
Sw $ra,16($sp) # save $ra on stack 
Sw $s3,12($sp) # save $s3 on stack 
Sw $s2, 8($sp) # save $s2 on stack 
SW $sl, 4($sp) # save $sl on stack 
Sw $s0, 0($sp) # save $s0 on stack 
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过 程 末 尾 只 需 反 向 执行 这 些 指 令 ， 然 后 为 了 返回 加 上 jr 指令 。 
6. 完整 的 sort 过 程 
现 将 所 有 片段 合 起 来 放 入 图 2-27， 注 意 for 循环 中 对 寄存 器 $a0 和 $al 的 引用 已 经 被 蔡 换 


成 对 寄存 器 $s2 和 $s3 的 引用 。 为 了 方便 阅读 ， 我 们 再 一 次 将 过 程 中 每 一 块 的 用 途 标 了 出 来 。 
本 例 中 ,9 行 C 语言 编写 的 sort 过 程 被 翻译 成 35 行 的 MIPS 汇编 语言 代码 。 


保存 寄存 器 值 





sort: 





addi $sp, $sp, -20 # make room on stack for 5 registers 
Sw $ra,l16 ($sp)# save $ra on stack 

sw $s3,12 ($sp) # save $s3 on stack 

Sw $s2,8 ($sp)# save $s2 on stack 

Sw $sl,4 ($sp)# save $sl on stack 

Sw $s0,0 ($sp)# save $s0 on stack 








$s2, $a0# copy parameter $a0 into $s2 (save $a0) 


























动 参 
移动 参数 move $s3, $al# copy parameter $al into $s3 (save $al) 
move $s0, $zero# i=0 
循环 外 部 forltst:slt $t0, $s0, $s3# reg $t0=0 if $s0 < $s3(i<n) 
beq $t0, $zero,exitl# go to exitl if $s0 < $s3 (i<n) 
addi $sl, $s0, -1#j3=i -1 
for2tst:slti $t0,$sl,0 # reg $t0 =1 if $sl <0(j<0) 
bne $t0, $zero,exit2 # go to exit2 if $sl <0(j <0) 
s11 $t1l, $sl,2# reg $t1=j* 4 
循环 内 部 add $t2, $s2, $tl# reg $t2=v+(j* 4) 
lw $t3,0 ($t2)# reg $t3=v[j] 
lw $t4,4($t2)# reg $t4 =v[j+1] 
slt $t0O, $t4, $t3# reg $t0 =0 if $t4 < $t3 
beq $t0, $zero,exit2# go to exit2 if $t4 < $t3 
T -| 
move $a0, $s2 #1st parameter of swap is v(old $a0) 
传递 参数 和 调用 move $al, $sl #2nd parameter of swap is ]j 
jal swap # swap code shown in Figure 2.25 
addi $sl, $s1, -1#j -=1 ] 
循环 内 部 j for2tst # jump to test of inner loop 
exit2: addi $s0, $s0,1 #i +=1 
循环 外 部 , 
， J forltst # jump to test of outer loop 








exitl; 





“恢复 寄存 器 的 值 


lw $s0,0 ($sp) # restore $s0 from stack 
lw $s1l,4 ($sp)# restore $sl from stack 

lw $s2,8 ($sp)# restore $s2 from stack 

1w $s3,12 ($sp) # restore $s3 from stack 
lw $ra,16 ($sp) # restore $ra from stack 
addi $sp, $sp,20 # restore stack pointer 








jr $ra # return to calling routine 


图 2-27 图 2-26 中 sort 过 程 的 MIPS 汇编 版 本 
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臣 精 解 ” 这 个 例子 可 以 使 用 的 一 种 优化 方法 是 内 联 过 程 (procedure inlining) 。 在 代码 中 调用 
swap 过 程 的 地 方 ， 编 译 器 将 swap 的 过 程 体 的 代码 复制 过 来 ， 而 不 是 通过 传递 参数 并 通过 
jal 指令 来 调用 这 段 代码 。 本 例 中 使 用 内 联 可 以 省 控 4 条 指令 。 使 用 内 联 优化 的 缺点 是 如 果 
内 联 过 程 需要 在 多 个 地 方 调用 ， 编 译 后 产生 的 代码 将 会 变 多 。 如 果 这 种 代码 扩展 导致 cache 
的 缺失 率 上 升 ， 将 导致 性 能 的 下 降 ( 见 第 5 章 )。 


全 理解 程序 性 能 ”图 2-28 层 示 了 编译 器 优化 对 排序 程序 的 性 能 、 编 译 时 间 、 时 钟 周 期 、 指 
令 数 和 CPI 的 影响 。 注 意 没 有 优化 的 代码 具有 最 好 的 CPL， 使 用 01 优化 的 代码 县 有 最 少 
的 指令 数 ， 但 是 03 优化 的 执行 速度 最 快 ， 这 上 告诉 我 们 执行 时 间 是 准确 衡量 程序 性 能 的 唯 
一 指标 。 

图 2-29 比较 了 编程 语言 、 编 译 执行 或 解释 执行 和 算法 对 排序 程序 性 能 的 影响 。 第 四 
列表 明 在 执行 慎 泡 排序 时 没有 优化 的 C 程序 比 解释 型 的 Java 程序 快 8.3 倍 。 使 用 即时 纺 
译 器 可 以 使 Java 比 没有 优化 的 C 程序 快 2.1 倍 ， 比 最 佳 优 化 的 C 代码 慢 不 到 1.13 倍 。 
(2. 15 节 将 给 出 关于 解释 执行 和 编译 执行 Java 的 更 多 细节 以 及 冒 泡 排序 的 Java 和 MIPS 代 
码 。) 在 第 五 列 中 ， 快 速 排序 的 性 能 比 就 没 那么 接近 了 ， 这 大 概 是 因为 在 这 样 短 的 执行 时 
间 内 分 摊 运 行 时 编译 的 时 间 是 非常 困难 的 。 最 后 一 列 展示 了 更 好 的 算法 带 来 的 影响 ， 当 对 
100 000 个 元 素 进行 排序 时 ， 性 能 达到 了 3 个 数量 级 的 提升 。 即 第 五 列 中 解释 执行 的 Java 
与 第 四 列 中 最 优化 的 C 代码 相 比 ， 快 速 排序 法 要 比 冒 泡 法 快 50 倍 (0.05 x2468 或 者 用 
123/2; 41)。 


gee 优化 选项 相对 性 能 时 钟 周期 (再 万 | 指数 (用) | cm | 


158 615 114 938 1.38 
01 | 66 990 -一 人 一 -一 过 -一 79 











02 (完全 ) - | 3 | 993 
03 (过 程 集成 ) 


图 2-28 冒 泡 排 序 中 编译 器 优化 对 性 能 、 指 令 数 、CPI 的 影响 比较 。 程 序 对 含有 100 000 个 字 的 被 初始 化 


为 随机 数 的 数组 进行 排序 。 程 序 运行 在 3. 06GHz 的 奔腾 4 处 理 器 上 ， 前 端 系统 总 线 是 533MHz， 
具有 2GB 的 PC2100 DDR SDRAM。 操作 系统 使 用 Linux 2. 4. 20 



















泡 排 序 如 排序 连 排序 相对 冒 泡 
一 一 Ps 
Teanse lw la lt hh 5 | 
人 args lwmw la lt | 
上 











中 2-29 ”两 个 排序 算法 的 性 能 比较 。 算 法 分 别 用 C 和 Java 实现 ，Java 分 别 使 用 解释 执行 和 优化 编译 来 与 未 
优化 的 C 版 本 比较 。 最 后 一 列 是 快速 排序 比 冒 泡 排序 在 每 种 语言 和 执行 方式 下 速度 提高 多 少 。 这 
些 程序 运行 的 系统 与 图 2-28 相同 。JVM 是 Sun 的 1.3. 1 版 本 ，JIT 是 Sun Hotspot 的 1.3.1 版 本 


邯 ] 精 解 MIPS 的 编译 器 总 是 在 栈 上 为 参数 保留 空间 以 便 它 们 得 以 保存 ， 所 以 实际 上 $sp 总 
是 减 16 来 给 4 个 参数 寄存 器 (16 字 节 ) 分 配 空间 。 这 样 做 的 原因 是 C 提供 一 个 vararg 
选项 ， 该 选项 允许 选择 一 个 指针 ,例如 过 程 的 第 三 个 参数 。 当 编译 器 遇 到 这 种 少见 的 
vararg 时 ， 它 就 将 4 个 参数 寄存 器 的 值 都 复制 到 栈 上 已 经 保留 的 位 置 中 。 
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2. 14 ”数组 与 指针 


理解 指针 对 任何 一 个 C 程序 新 手 来 说 都 是 具有 挑战 的 。 通 过 对 比 使 用 数组 和 数组 标记 的 汇编 
代码 和 使 用 指针 的 汇编 代码 ， 可 以 从 本 质 上 来 理解 指针 。 本 节 将 展示 C 和 MIPS 汇编 版 本 的 两 个 
清除 内 存 中 连续 字 的 过 程 : 一 个 使 用 数组 标记 ; 另 一 个 使 用 指针 。 图 2-30 给 出 了 这 两 个 C 过 程 。 


clearl(int array[], int size) 
{ 


于 煌 入 全 当 
tor 《ts 0 1 «< sives 1 de 1 
array[i] = 0; 





} 
clear2(int *array, int size) 
{ 
imk *ps 
for (p = &array[0]; p < &array[size]; p=p+1) 
xp = 0; 





} 





2-30 两 个 将 数组 清 零 的 C 过 程 。clear1 使 用 下 标 ， 而 clear2 使 用 指针 。 对 不 熟悉 C 的 人 ,第 二 个 
过 程 需要 做 一 些 解释 。 变 量 的 地 址 使 用 & 表示 ， 指 针 所 指向 的 对 象 用 * 表示 。 声 明 部 分 说 明 
array 和 pp 都 是 指向 整数 的 指针 。clear2 的 for 循环 中 第 一 个 部 分 将 array 的 第 一 个 元 素 的 
地 址 赋值 给 指针 p。for 循环 的 第 二 部 分 判断 这 个 指针 是 否 指向 了 array 的 最 后 一 个 元 素 之 外 。 
for 循环 的 最 后 部 分 ， 对 这 个 指针 每 次 递增 ( 增 1) ， 意 味 着 将 指针 移 到 它 声明 的 空间 中 的 下 一 个 
对 象 。 由 于 p 是 一 个 指向 整数 的 指针 ， 编 译 器 将 会 产生 MIPS 指令 ， 让 p 按照 4 递增 , 4 是 MIPS 
中 整数 的 字 节 数目 。 循 环 体 中 将 0 赋值 给 p 所 指向 的 对 象 


本 节 的 目的 是 展示 指针 是 如 何 映射 到 MIPS 指令 的 ， 而 不 是 赞同 这 种 过 时 的 编程 风格 。 我 
们 在 本 节 的 末尾 将 看 到 现代 编译 器 的 优化 对 这 两 个 过 程 带 来 的 影响 。 


2. 14. 1 用 数组 实现 clear 


我 们 从 数组 版 本 的 clearl 开始 ， 主 要 关注 循环 体 ， 而 忽略 过 程 链 接 相 关 的 代码 。 假 设 两 
个 参数 array 和 size 分 别 在 寄存 器 $a0 和 $al 中 ，i 保存 在 $t0 中 。 
for 循环 的 第 一 部 分 ， 初 始 化 变量 i: 


move $t0 ,$zero # i= 0 (register $t0 = 0) 


为 了 将 array [i] 清 0， 我 们 首先 需要 得 到 它 的 地 址 。 首 先 把 i 乘 以 4 得 到 字 节 地 址 : 
loopl: s11  $t1,$t0,2 # $tl =i*4 

因为 数组 的 起 始 地 址 在 寄存 器 中 ， 所 以 我 们 必须 将 它 与 下 标 相 加 以 得 到 array [i] 的 地 
使 用 下 面 的 加 法 指令 : 


add $t2 ,$a0 ,4$t1l # $t2 = address of array[i] 


然后 ， 我 们 就 将 0 保存 在 这 个 地 址 : 


sw $zero，0($t2) # array[i] = 0 


这 条 指令 是 循环 体 最 后 一 条 指令 ， 下 一 步 是 增加 i 值 (加 1): 


萤 


addi $t0,$t0,1 阔 1=i+1 
循环 测试 条 件 检测 i 是 否 小 于 size: 
slt $t3,$t0,$al # $t3 = (i < size) 


bne $t3,$zero,loopl # if (i < size) go to loopl 


现在 ,我 们 已 经 得 到 过 程 所 有 的 片断 。 下 面 则 是 使 用 数组 下 标 对 数组 清 零 的 MIPS 汇 
编码 : 
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move $t0,$zero #i=0 
loopl: sll  $tl,$t0,2 # $tl=i*4 
add $t2,$a0, $tl # $t2 = address of array[i] 
Sw $zero, 0($t2) # array[i] = 0 
addi $t0,$t0,1 #i=i+1 
slt  $t3,$t0,$al # $t3 = (i < size) 


bne  $t3,$zero,loopl # if (i < size) go to loopl 
(只 要 size 大 于 0， 这些 代码 就 能 正确 工作 ; ANSI C 需要 在 循环 前 测试 size 值 , 但 是 我 
们 跳 过 了 这 个 。) 


2. 14.2 用 指针 实现 clear 


第 二 个 过 程 是 使 用 指针 的 ， 该 过 程 将 两 个 参数 array 和 size 分 配 到 寄存 器 $a0 和 $al， 
将 p 分 配 到 寄存 器 $t0 。 在 第 二 个 过 程 开 始 时 需要 将 数组 的 首 地 址 赋值 给 指针 p: 

move $t0,$a0 # p = address of array[0] 

接 下 来 的 代码 将 是 for 循环 体 ， 它 仅仅 是 简单 地 将 0 存 到 地 址 p: 

loop2: sw $zero,0($t0) # Memory[p] = 0 

这 条 指令 实现 了 循环 体 ， 所 以 下 一 条 指令 将 是 迁 代 子 自 增 ， 即 改变 p 使 其 指向 下 一 个 字 : 

addi $t0,$t0,4 大 及 竺 Bi 才 和 4 

在 C 中 将 指针 加 1 意味 着 将 指针 指向 序列 中 下 一 个 对 象 。 因 为 p 是 一 个 指向 整数 的 指针 ， 
整数 占用 4 字 节 ， 编 译 器 将 对 p 加 4。 

接着 就 是 循环 测试 。 首 先 计 算 array 最 后 一 个 元 素 的 地 址 。 先 将 size 乘 以 4 得 到 字 节 


地 址 。 
sl1] $t1,$al ,2 i# $tl = size * 4 
然后 ， 将 乘积 与 数组 的 首 地 址 相 加 以 获得 数组 后 面 第 一 个 字 的 地 址 : 
add $t2,$a0,s$tl # $t2 = address of array[size] 
循环 测试 仅仅 是 简单 地 判断 p 是 否 比 array 最 后 一 个 元 素 的 地 址 小 : 
slit $t3,$t0,$te2 # $t3 = (p<&array[size]) 


bne $t3,$zero,loop2 # if (p<&array[sizel]) go to loop2 


所 有 的 代码 片段 都 已 经 完成 ， 现 在 我 们 可 以 看 到 指针 版 本 的 数组 清 零 了 : 


move $t0,$a0 # p = address of array[0] 
loop2: sw  $zero,0($t0) # Memory[p] = 0 

addi $t0,$t0,4 # p=p+4 

sll $tl1,$al,2 # $tl = Size * 4 


add $t2,$a0,$tl # $t2 = address of array[size] 

slt $t3,$t0,$t2 # $t3 = (p<&array[size]) 

bne $t3,$zero,loop?2 # if (p&array[size]) go to 100p2 
与 第 一 个 例子 一 样 ， 这 段 代码 也 假定 size 大 于 0。 
注意 ， 尽 管 数 组 的 末 地 址 一 直 保 持 不 变 ,但 是 这 个 程序 循环 的 每 次 迭代 都 要 计算 它 。 一 种 

快速 的 执行 方式 是 将 数组 末 地 址 的 计算 放 到 循环 体外 面 : 

move $t0,$a0 # p = address of array[0] 

sS11 $tl,$al,2 # $tl = size * 4 

add $t2,$a0,$tl # $t2 = address of array[size] 
loop2: sw  $zero,0($t0) # Memory[p] = 0 

addi $t0,$t0 ,4 #p=p+4 

slt $t3,$t0,$t2 # $t3 = (p<&array[size]) 

bne $t3,$zero,loop2 # if (p<&array[size]) go to loop2 


2. 14.3 比较 两 个 版 本 的 clear 
将 两 段 代码 放 在 一 起 进行 比较 可 以 说 明 数组 下 标 和 指针 的 不 同 (指针 版 本 带 来 的 变化 被 高 
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亮 显 示 ): 

move $t0,$zero #i=0 move $t0, 

loopl: sll $t1,$t0,2 # $tl=i*4 sll #1， 了 # $tl = 六 4 
add  $t2,$a0 ,$tl # $t2 = &array[i] add  $t2,$a0,$tl # $t2 = &array[ ] 
SW $zero, 0($t2) #array[i]=0 sw $zero,0( ) # =0 
addi $t0,$t0,1 大 十 一 计生 二 addi $t0,$t0, # 
slt  $t3,$t0,$al # $t3= (i < size) slt $t3.3t0; # $t3=(L《 / ) 
bne  $t3,$zero,loopl# if () go to loopl bne  $t3,$zero,loop2# if () go to loop2 


左边 的 版 本 必须 在 循环 中 有 “ 乘 ” 和 加 操作 ， 因 为 i 值 增 加 了 ， 每 个 地 址 都 将 从 新 下 标 
开始 被 重新 计算 。 右 边 存储 器 指针 版 本 的 代码 直接 增加 指针 P。 指 针 版 本 通过 把 一 些 操作 拿 到 
循环 外 部 ， 将 每 次 迭代 执行 的 指令 从 6 条 减少 到 4 条 。 这 种 手动 的 优化 与 编译 器 的 强度 减少 
(用 移 位 代替 乘 ) 和 变量 消除 (消除 循环 中 的 数组 地 址 计算 ) 是 一 致 的 。2. 15 节 投 述 了 这 两 种 
优化 和 其 他 一 些 优化 。 


著 ] 精 解 正如 前 面 提 到 的 ，C 编译 器 需要 增加 测试 来 保证 size 一 定 大 于 0。 一 个 方法 是 在 
循环 的 第 一 条 指令 之 前 加 入 一 条 跳 转 到 slt 的 跳 转 指令 。 


邯 |] 理解 程序 性 能 ”以 往 经 常 教育 人 们 要 在 C 中 使 用 指针 来 获得 数组 所 无 法 获得 的 更 高 的 效 
率 。 然 而 ,“ 使 用 指针 ， 甚 至 会 使 你 自己 都 无 法 理解 代码 的 含义 。” 现代 的 优化 编译 器 可 
以 为 数组 版 本 产生 同样 好 的 代码 。 现 在 大 部 分 程序 员 更 喜欢 让 编译 器 去 做 更 繁重 的 工作 。 


名 2. 15 高 级 内 容 : 编译 C 语言 和 解释 Java 语言 


本 节 将 简要 概述 C 编译 器 如 何 工 作 和 Java 是 如 何 执行 的 。 因 为 编译 器 将 对 计算 机 的 性 能 
产生 重要 影响 ， 所 以 理解 编译 器 技术 是 理解 性 能 的 关键 。 要 知道 “编译 器 的 构建 ”课程 的 学 
习 一 般 需 要 1 个 或 2 个 学 期 ， 所 以 我 们 这 里 将 仅仅 介绍 一 些 基 本 内 容 。 

本 节 的 第 二 部 分 是 为 对 面向 对 象 语言 (objected oriented language) (例如 Java) 在 MIPS 体 
系 结构 上 执行 感 兴趣 的 读者 准备 的 。 本 节 将 展示 被 用 于 解释 执行 的 Java 字 节 码 和 前 面 章节 中 用 
C 编写 的 程序 段 的 Java 版 本 的 MIPS 代码 ， 包括 冒 泡 排 序 。 本 节 将 包括 Java 虚拟 机 和 即时 编 
译 器 。 


本 节 的 剩余 内 容 在 配套 网 站 上 。 
”面向 对 象 语言 : 一 种 针对 对 象 而 不 是 动作 的 编程 语言 ， 或 者 针对 数据 而 不 是 逻辑 的 编程 
语言 。 


2. 16 实例 : ARMv7 (32 位 ) 指令 集 


在 内 人 式 设备 领域 中 最 流行 的 指令 集体 系 结构 是 ARM，2011 年 有 超过 90 亿 部 各 种 各 样 的 
设备 使 用 ARM 处 理 器 ， 并 且 以 每 年 20 亿 的 数量 增长 。ARM 最 初代 表 Acorn RISC Machine， 稍 
后 被 改 为 Advanced RISC Machine。ARM 与 MIPS 处 理 器 在 同年 发 布 并 遵循 相同 的 简洁 的 设计 哲 
学 。 图 2-31 列 出 了 ARM 与 MIPS 的 相似 性 。 它 们 二 者 的 主要 区 别 是 MIPS 有 更 多 的 寄存 器 ， 而 
ARM 有 更 多 的 寻 址 模式 。 

图 2-32 展示 了 MIPS 与 ARM 在 算术 逻辑 和 数据 传输 指令 方面 具有 相似 的 核心 指令 集 。 
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图 2-32 ARM 的 寄存 器 -寄存 器 指令 和 数据 传输 指令 与 MIPS 核心 指令 是 等 价 的 。 横 线 表 示 体 系 结构 不 
支持 该 操作 或 不 能 用 一 些 指令 来 实现 该 操作 。 如 果 有 几 条 可 供 选 择 的 指令 都 与 MIPS 核心 指令 
等 价 ， 那 么 用 逗号 分 隔 这 些 指令 。ARM 中 每 条 数据 操作 指令 都 有 移 位 的 部 分 ， 所 以 移 位 指令 用 
了 上 标 1， 它 们 基本 是 move 指令 的 变种 ， 例 如 1sr-  。 注 意 ARM 中 没有 除法 指令 


2. 16. 1 寻 址 模式 


图 2-33 展示 了 ARM 支持 的 数据 寻 址 模式 。 不 同 于 MIPS，ARM 不 需要 使 用 专门 的 寄存 器 
来 保存 0 这 个 数值 。 尽 管 MIPS 仅 有 3 种 简单 的 数据 寻 址 模式 〈 见 图 2-18) ，ARM 却 有 9 种 寻 
址 模式 之 多 ,包括 十 分 复杂 的 计算 的 寻 址 模式 。 例 如 ，ARM 的 一 种 寻 址 模式 可 以 把 一 个 寄存 
器 中 的 数 移动 任意 位 ， 将 移 位 后 得 到 的 数 与 另外 一 个 寄存 器 中 的 值 相 加 产生 地 址 ， 然 后 将 产生 
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的 新 地 址 存 人 一 个 寄存 器 中 。 


寄存 器 操作 数 x 
立即 数 操作 数 x 
寄存 器 + 仿 移 (转移 或 基地 址 ) x 


寄存 器 + 寄存 器 (下 标 ) 
寄存 器 + 寄存 器 倍 乘 〈 倍 乘 ) 
寄存 器 + 偏 移 和 更 新 寄存 器 
寄存 器 + 寄存 器 和 更 新 寄存 器 
自 增 ， 自 减 

相对 PC 的 数据 

图 2-33 ”数据 寻 址 模式 的 总 结 。ARM 具有 分 离 的 寄存 器 间接 寻 址 和 寄存 器 + 偏 移 寻 址 模式 ， 而 不 是 仅仅 


在 后 一 种 模式 的 偏 移 地 址 上 填 0。 为 了 增加 寻 址 范围 ， 如 果 是 对 半 字 或 字 进 行 操 作 ，ARM 对 偏 
移 左 移 1 位 或 2 位 


2. 16.2 比较 和 条 件 分 支 


MIPS 使 用 寄存 器 中 的 值 来 决定 条 件 分 支 是 否 执行 。 而 ARM 使 用 传统 的 存储 在 程序 状态 字 
中 的 4 位 条 件 码 来 决定 条 件 分 支 是 否 执行 。 这 4 个 条 件 码 是 : 负 值 (negative) 、 零 (zero)、 进 
位 〈cary) 和 溢出 〈overflow) 。 这 些 条 件 码 可 以 被 任何 算术 或 逻辑 指令 设置 ， 不 同 于 早期 的 体 
系 结构 ， 这 些 设置 功能 是 每 条 指令 的 可 选 功 能 。 明 确 的 选项 会 使 流水 化 的 实现 变 得 更 加 容易 。 
ARM 使 用 条 件 分 支 来 测试 条 件 码 以 判断 所 有 有 符号 和 无 符号 的 关系 。 

CMP 指令 用 一 个 操作 数 减 去 另 一 个 操作 数 ， 用 它们 的 差 设置 条 件 码 。CMN 指令 将 一 个 操 
作 数 与 男 一 个 操作 数 相 加 ， 用 它们 的 和 来 设置 条 件 码 。TST 指令 将 两 个 操作 数 进行 逻辑 与 ， 然 
后 设置 除 溢出 位 外 其 他 的 条 件 码 。TEQ 指令 是 用 异 或 结果 来 设置 条 件 码 的 前 三 位 。 

ARM 具有 这 样 一 个 不 寻常 的 特点 ， 每 条 指令 都 有 一 个 可 选 的 执行 条 件 ， 这 个 条 件 决 定 于 
条 件 码 。 每 条 指令 开始 的 4 位 字段 决定 这 条 指令 将 执行 空 操作 (nop) 还 是 执行 真实 的 指令 操 
作 ， 这 种 选择 也 取决 于 条 件 码 。 因 此 ， 条 件 分 支 也 可 以 被 认为 是 有 条 件 的 执行 无 条 件 分 支 指 
令 。 条 件 执行 指令 可 以 取代 仅 为 了 跳 过 一 条 指令 的 分 支 指令 ， 不 仅 占用 的 代码 空间 更 少 ， 而 且 
也 会 节省 运行 时 间 。 

图 2-34 展示 了 ARM 和 MIPS 的 指令 格式 。 它 们 之 间 的 主要 区 别 有 两 点 : 每 条 指令 的 4 位 
条 件 执行 字段 不 同 ; ARM 因为 只 用 MIPS 一 半数 量 的 寄存 器 ， 所 以 具有 相对 较 小 的 寄存 器 
字段 。 


2. 16.3 ARM 的 特色 











x x x 


























x x x x x x 
|= 
| 











图 2-35 列举 了 ARM 处 理 器 所 特有 的 一 些 算术 逻辑 指令 ,这些 指令 在 MIPS 中 是 不 存在 的 。 
由 于 没有 专门 的 寄存 器 用 来 存储 0， 所 以 ARM 需要 单独 的 操作 码 来 完成 一 些 在 MIPS 中 可 以 简 
单 使 用 $zero 来 完成 的 操作 。 另 外 ，ARM 支持 多 个 字 的 算术 操作 。 

ARM 解释 12 位 立即 数字 有 段 的 方式 非常 新 颖 。 首 先 将 右 侧 低 8 位 的 有 效 位 填 0 扩展 到 32 
位 ， 然 后 将 所 得 的 数 循环 右 移 ， 移 动 的 位 数 由 高 4 位 的 值 乘 以 2 决定 。 这 种 解释 方式 的 优点 是 
可 以 在 32 位 字 的 范围 内 表达 所 有 2 的 短 次 。 为 什么 这 种 分 割 所 表示 的 数字 多 于 简单 的 12 位 字 
段 是 一 个 有 趣 的 问题 。 


后 :i 罗江 0 


31 28 27 20 19 16 15 12 11 43 0 
ARM Rr | Re Re 


寄存 器 -寄存 器 31 25 21 20 1615 1110 5 0 





31 28 27 20 19 16 15 12 11 0 





数据 传输 31 26 25 21 20 16 15 0 
MIPS Constte 






学 外 su 
RY 
上 


31 28 27 24 23 0 
SEE 李 J “3 A | 





分 支 31 26 25 21 20 16 15 0 
WTB 可 ee rr 





31 2827 2423 | 0 





ARM 
跳 转 /调用 





MIPS 


国 Opcode 口 Register 回 Constant 


2-34 ARM 和 MIPS 的 指令 格式 。 区 别 在 于 体系 结构 中 是 有 16 个 还 是 32 个 寄存 器 


Rd = Imm 
Rd= ~ (Rsl) 








Rd=Rsi>>i 


Rdo..; -1 = Rs3l -i..31 








图 2-35 MIPS 中 没有 的 ARM 算术 /逻辑 指令 


对 操作 数 的 移 位 并 不 仅 限于 立即 数 。 所 有 算术 和 逻辑 运算 操作 的 第 二 个 寄存 器 操作 数 都 
可 以 在 执行 操作 之 前 进行 移 位 。 可 选 的 移 位 方式 是 逻辑 左 移 、 逻 辑 右 移 、 算 术 右 移 和 循环 
右 移 。 148 
ARM 还 对 寄存 器 组 的 操作 提供 了 指令 支持 ， 这 些 指 令 叫 作 块 加 载 和 存储 (block loads and 
stores) 。 在 指令 的 16 位 掩 码 的 控制 下 ，16 个 寄存 器 中 的 任意 组 合 都 可 以 被 一 条 指令 加 载 或 存 
储 到 内 存 中 。 这 些 指令 可 以 保存 和 恢复 程序 调用 和 返回 时 的 寄存 器 。 这 些 指令 也 可 以 被 用 于 存 
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储 器 块 的 复制 ， 现 在 这 些 存储 器 块 的 复制 是 对 这 些 指令 的 主要 应 用 。 
2. 17 实例 : x86 指令 


情人 眼 里 出 西施 。 
—— Margaret Wolfe Hungerford, 《 Molby Bawn), 1877 
指令 集 的 设计 者 有 时 提供 比 ARM 和 MIPS 更 强大 的 操作 。 这 样 做 的 目的 是 减少 程序 需要 执 
行 的 指令 数 。 其 风险 在 于 ， 在 设备 简单 性 方面 需 付 出 一 定 的 代价 ， 并 且 可 能 使 程序 执行 时 间 变 
长 ， 这 是 因为 指令 执行 需要 更 长 的 时 间 。 这 可 能 是 由 于 时 钟 周期 变 长 或 者 是 比 更 简单 的 序列 需 
要 更 多 的 周期 来 执行 程序 所 引起 的 。 
通 向 复杂 操作 的 道路 困难 重重 。2. 19 节 将 阐述 复杂 性 的 陷阱 。 


2.17.1 Intel x86 的 改进 


ARM 和 MIPS 都 是 由 单独 的 小 组 在 1985 年 推出 的 。 这 种 体系 结构 的 每 部 分 配合 在 一 起 非 
常 合适 ， 整 个 体系 结构 能 被 简洁 地 描述 出 来 。 但 是 x86 却 不 是 这 样 ， 它 是 由 一 些 相 互 独立 的 小 
组 开发 的 ， 并 且 它 被 持续 改进 了 超过 35 年 ， 不 断 在 原来 指令 集 的 基础 上 增加 新 的 特性 ， 这 就 
像 有 些 人 往 包 装 好 的 包 里 添加 衣服 。 下 面 是 x86 发 展 的 一 些 重要 的 里 程 碑 。 
e 1978 : Intel 8086 体系 结构 作为 之 前 一 款 成 功 的 8 位 微 处 理 器 的 汇编 语言 的 可 兼容 的 扩 
展 被 发 布 。8086 是 一 个 16 位 的 体系 结构 ， 所 有 内 部 的 寄存 器 都 是 16 位 长 。 与 MIPS 不 
同 ， 它 的 寄存 器 都 是 专用 的 ， 因 此 8086 并 不 是 通用 寄存 器 ( general- purpose register， 
GPR) 体系 结构 。 
。 1980: Intel 8087 浮 点 协 处 理 器 发 布 。 这 个 体系 结构 在 8086 的 基础 上 增加 了 60 条 浮 点 
指令 。 它 通过 栈 来 代替 寄存 器 ( 见 2.21 节 和 3.7 节 )。 

1982: 80286 在 8086 的 基础 上 把 地 址 空间 扩展 到 24 位 ， 并 设计 了 精妙 的 内 存 映 射 和 保 

护 模式 〈 见 第 5 章 ) ， 还 增加 了 一 些 指 令 去 丰富 整个 指令 集 以 及 控制 保护 模式 。 

1985: 80386 在 80286 体系 结构 的 基础 上 将 地 址 空间 扩展 到 32 位。 除了 32 位 的 寄存 器 

和 32 位 的 地 址 空间 ，80386 也 增加 了 一 些 新 的 寻 址 模式 和 额外 的 操作 。 增 加 的 指令 使 

得 80386 几乎 就 是 通用 寄存 器 的 处 理 器 。80386 还 增加 了 对 页 的 支持 并 提供 了 段 寻 址 

(参见 第 5 章 ) 。 与 80286 一 样 ，80386 也 提供 能 运行 不 经 修改 的 8086 程序 的 模式 。 

1989 ~ 1995 : 接 下 来 在 1989 年 发 布 了 80486 ，1992 年 发 布 Pentium 处 理 器 ，1995 年 发 

布 Pentium Pro 处 理 器 。 这 些 处 理 器 都 是 以 获得 更 高 的 性 能 为 目的 的 ， 仅 有 4 个 指令 被 

增加 到 用 户 可 见 的 指令 集中 ， 其 中 3 个 有 助 于 多 处 理 技术 (参见 第 6 章 ) ， 另 一 个 是 条 

件 传送 指令 。 

e 1997: 在 Pentium 和 Pentium Pro 销售 后 ，Intel 公司 宣称 他 们 将 用 多 媒体 扩展 MMX 
(Multi Media Extension ) 来 扩展 Pentium 和 Pentium Pro 的 体系 结构 。 这 个 新 指令 集 包 含 
57 条 指令 ， 使 用 浮 点 栈 来 加 速 多 媒体 和 通信 应 用 程序 。MMX 通过 传统 的 单 指令 多 数据 
(single instruction ，multiple data，SIMD ) 的 方式 来 一 次 处 理 多 个 短 的 数据 元 素 (参见 
第 6 章 ) 。Pentium 开 没 有 引入 任何 新 的 指令 。 

e 1999: Intel 添加 了 另外 70 条 指令 ,将 SSE (Streaming SIMD Extension) 作为 Pentium 亚 
的 一 部 分 。 主 要 的 变化 是 添加 了 8 个 独立 的 寄存 器 ， 把 它们 的 长 度 增加 到 128 位 ， 并 
且 增 加 了 一 个 单 精度 浮 点 数据 类 型 。 因 此 ,4 个 32 位 的 浮 点 操作 就 可 以 并 行进 行 。 为 
了 改进 内 存 性 能 ，SSE 还 包括 cache 的 预 取 指 令 ， 以 及 可 以 绕 过 缓冲 器 直接 写 内 存 的 流 
存储 指令 。 


2001 : 


703 
也 
集 的 微 处 理 器 Pentium 4 的 浮 点 性 能 
文 次 


Intel 公司 增加 了 另外 144 条 指令 。 这 次 命名 为 SSE2。 增 加 的 新 的 数据 类 型 是 双 
存在 的 MMX 和 SSE 指令 ， 这 些 指令 并 行 操 作 64 位 数据 。 这 种 变化 不 仅 允 许 更 多 的 多 


fi» 
精度 算术 ， 它 允许 并 行 操作 64 位 浮 点 型 数据 对 。 这 144 条 指令 几乎 都 对 应 着 一 些 已 经 
这 些 
微 处 


SJ 总 
媒体 操作 ， 并 且 与 单独 的 栈 架构 相 比 ， 编 译 器 多 了 一 个 新 的 浮 点 操作 目标 。 编 译 器 可 
以 使 用 8 个 SSE 寄存 器 来 充当 浮 点 寄存 器 。 这 种 改进 大 大 增强 了 第 一 个 包括 SSE2 指令 
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2003: 这 次 是 AMD 改进 了 x86 体系 结构 ， 把 地 址 空间 从 32 位 增加 到 64 位。 与 1985 年 
在 80386 上 从 16 位 到 32 位 的 转变 类 似 ，AMD64 把 所 有 的 寄存 器 都 拓宽 到 64 位 ， 并 且 
把 寄存 器 的 数目 增加 到 16， 把 128 位 的 SSE 寄存 器 数目 增加 到 16 
添 


是 新 增加 了 一 个 模式 叫 长 模式 (long mode)， 用 64 位 的 地 址 和 数据 来 重新 定义 所 有 
x86 指令 的 执行 。 为 了 寻 址 更 多 的 寄存 器 ， 给 指令 增加 了 新 前 级 。 根 据 计算 方 式 , 长 
模式 还 添加 了 4 ~ 10 条 新 的 指令 并 且 去 掉 了 27 条 旧 指 

然 i 
对 mr 


ISA 的 主要 变化 
前 令 。PC 相对 数据 寻 址 是 另 一 个 
扩展 。AMD64 仍然 有 一 个 和 x86 相同 的 模式 〈 遗 产 模 式 ) 并 且 增加 了 一 个 模式 ， 以 限 
制 用 户 程 序 使 用 x86 模式 ， 但 是 却 允 许 操作 系统 使 用 AMD64 模式 (兼容 模式 ) 。 这 些 
有 的 指令 。 同 时 


模式 使 它 成 为 比 HP/Intel IA-64 更 好 地 从 32 位 过 渡 到 64 位 寻 址 的 处 理 器 。 


2004: Ptel 屈服 并 吸纳 了 AMD64 ， 重 新 标记 为 Extended Memory64 Technology (EM64T) 


二 
工 
主要 的 区 别 是 Intel 增加 了 128 位 的 原子 比较 和 交换 指令 ， 这 个 本 应 在 AMD64 上 可 能 具 


， 这 -11 
Intel 发 布 了 新 一 代 媒 体 扩 展 。SSE3 添加 了 13 条 指令 来 支持 复杂 
术 , 包括 在 结构 数组 上 进行 的 图 形 操作 、 视 频 编 码 、 浮 点 转换 以 及 线程 同步 〈 见 2.11 
原子 交换 指令 添加 到 AMD64 使 其 与 Intel 二 进 制 兼容 。 


节 )。AMD 会 在 以 后 的 芯片 中 提供 对 SSE3 的 支持 。 而 且 它 几乎 肯定 能 够 把 原先 没有 的 
2006 : 作为 SSE4 的 一 部 分 扩展 ，Intel 发 布 了 54 条 新 指令 。 这 些 扩展 都 是 针对 像 如 下 
影响 性 能 的 因素 : 绝对 差 求 和 和、 数组 结构 的 点 积 计 算 、 窜 数据 到 较 宽 的 数据 的 符号 或 
零 扩 展 ， 序 列 中 非 零 的 数目 统计 等 。 还 增加 了 对 虚拟 机 的 支持 〈 见 第 5 章 )。 
令 增加 了 像 MIPS 的 3 操作 数 的 版 本 。 

2011 
新 定义 了 250 条 指令 并 新 增 了 128 条 指令 。 
2 通用 寄存 器 : 可 用 于 存储 任何 
这 段 历史 说 明了 兼容 性 这 
件 产生 任何 的 危害 。 


2007: 作为 SSE5 的 一 部 分 ，AMD 发 布 了 170 条 指令 ,包括 为 46 条 基本 指令 集中 的 指 
Intel 发 布 了 高 级 向 量 扩展 ， 同 时 将 SSE 寄存 器 从 128 位 扩展 到 256 位 ， 因 此 重 
A 站 今 
可 指令 
DS 
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的 地 址 或 数据 的 寄存 器 
金 手 错 ” 对 x86 的 影响 ,体系 结构 的 改变 不 允许 对 已 有 的 软 
无 论 x86 结构 有 多 失败 ， 该 指令 集 一 一 有 对 个 人 计算 机 的 更 新 换代 起 着 很 大 的 推动 作用 ， 在 
后 PC 时 代 占 据 着 很 大 的 份额 。 表 面 上 看 起 来 ，3.5 亿 x86 芯片 的 年 产量 相对 于 ARMv7 芯片 的 
90 亿 片 要 小 很 多 ， 但 是 许多 公司 都 想 去 控制 这 个 市 场 。 无 论 如 何 ， 这 个 多 变 的 家 族 带 来 的 是 
个 难以 解释 并 且 不 讨 人 喜欢 的 体系 结构 
请 鼓 起 勇气 来 面 对 你 将 要 看 到 的 内 容 ! 不 要 带 着 需要 编写 x86 程序 的 担心 来 阅读 这 一 节 
实际 上 ， 本 节 的 目的 是 让 你 熟悉 这 一 世界 上 最 流行 的 台式 机 体系 结构 的 优 缺 点 。 
本 节 我 们 主要 关心 的 是 80386 的 32 位 指令 子 集 ， 而 不 是 整个 16 位 、32 位 和 64 位 指令 集 。 
我 们 从 寄存 器 和 寻 址 模式 开始 说 明 ， 接 下 来 是 整数 操作 ， 最 后 考虑 指令 编码 。 
2. 17. 2 ” x86 寄存 器 和 数据 寻 址 模式 


80386 的 寄存 器 展示 了 指令 集 的 进化 (如 图 2-36 所 示 ) 。80386 把 16 位 寄存 器 〈 除 了 段 寄 
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存 器 ) 扩展 为 32 位 。 并 用 前 缀 下 来 标示 32 位 版 本 。 它 们 通常 被 称 为 通用 寄存 器 。80386 只 有 
8 个 通用 寄存 器 ， 这 意味 着 MIPS 程序 使 用 4 倍数 量 的 寄存 器 ， 而 ARMYV7 可 以 使 用 2 倍数 量 的 
寄存 器 。 


EDI 





EIP 


指令 指针 PC) 
EFLAGS 条 件 码 也 称 标志 位 ) 


图 2-36 ”80386 寄存 器 组 。 从 80386 开始 ， 上 面 的 8 个 寄存 器 扩展 到 32 位 并 可 以 当做 通用 寄存 器 使 用 


图 2-37 展示 了 两 个 操作 数 的 算术 、 逻 辑 和 数据 传输 指令 。 它 们 有 两 个 重要 的 不 同 之 处 。 
首先 x86 的 算术 和 逻辑 指令 中 的 一 个 操作 数 必须 既是 源 操 作 数 又 是 目的 操作 数 ， 而 ARMv7 和 
MIPS 的 源 操 作 数 和 目的 操作 数 是 不 同 的 寄存 器 。 这 种 限制 给 有 限 的 寄存 器 带 来 更 大 的 压力 ， 
因此 一 个 源 寄 存 器 必须 被 改变 。 第 二 个 重要 的 不 同 之 处 在 于 一 个 操作 数 可 以 在 存储 器 中 。 这 
样 ， 实 质 上 任何 指令 都 可 能 有 一 个 操作 数 在 存储 器 中 。 这 与 ARMv7 和 MIPS 不 同 。 


源 / 目 标 操 作 数 类 型 第 二 个 源 操作 数 











图 2-37 ， 算术、 逻辑 和 数据 传输 指令 的 指令 格式 。x86 所 允许 的 组 合 见 上 表 。 唯 一 的 限制 是 没有 存储 
器 -存储 器 模式 。 立 即 数 可 以 是 8 位 、16 位 或 32 位 ; 寄存 器 可 以 是 图 2-36 中 14 个 主要 的 寄存 
器 (不 能 是 EIP 或 EFLAGS) 的 任意 一 个 


后 面 将 会 详细 阐述 数据 的 存储 器 寻 址 模式 ， 在 指令 中 提供 两 种 位 长 的 地 址 。 这 种 所 谓 的 偏 
移 (displacements) 既 可 能 是 8 位 也 可 能 是 32 位 。 
尽管 存储 器 操作 数 可 以 使 用 任何 寻 址 模式 , 但 是 每 种 模式 使 用 哪些 寄存 器 是 有 限制 的 。 


指令 : 计算 机 的 语言 105 





图 2-38 展 示 了 x86 寻 址 模式 和 每 种 模式 下 哪个 GPR 是 不 允许 使 用 的 ， 并 说 明 如 何 使 用 MIPS 指 
令 集 来 达到 相同 效果 。 






















































， 寄存 器 限制 等 价 的 MIPS 
寄存 器 间接 寻 址 地 址 在 寄存 器 中 不 能 为 ESP 或 EBP lw $s0,0 ($s1) 
8 位 或 32 位 偏 移 地 址 是 基 址 寄存 器 与 偏 移 量 不 能 为 ESP lw $s0,100 ($s1)# <=16 bit 
寻 址 模式 之 和 EE 3 displacement 
3 地 址 是 ， mul $t0, $s2, 
a 比例 下 标 | 。 基 十 + (2kg x 下 标 ) ee ha add $t0, $t0, $sl 
比例 是 0，1, 2 或 3 上 lw $s0,0($t0) 
地 址 是 mul $t0, $s2,4 
hg a 基 址 + (2 全 x 下 标 ) + 偏 基 址 : 任何 GPR add $t0, $t0, $s1l 
标 寻 址 移 量 下 标 : 不 能 为 ESP lw $s0,100($t0)# <=6 -bit 
比例 是 0，1, 2 或 3 #displacement 











图 2-38 x86 有 寄存 器 使 用 限制 的 32 位 寻 址 模式 及 等 价 的 MIPS 代码 。ARM 和 MIPS 所 没有 的 ， 基 址 加 
比例 下 标 寻 址 模式 ， 包 含 在 x86 中 以 避免 将 寄存 器 中 的 下 标 乘 4 (使 用 比例 因子 2) 变 成 字 节 地 
址 〈 见 图 2-25 和 图 2-27) 。 比 例 因子 1 用 于 16 位 数据 ，3 用 于 64 位 数据 。 比 例 因子 0 意味 着 这 
个 地 址 不 需要 按 比 例 增 加 。 在 第 二 种 或 第 四 种 模式 中 如 果 偏 移 量 比 16 位 长 ， 等 价 的 MIPS 需要 
额外 的 两 条 指令 : 1ui 取 偏 移 量 的 高 16 位 ，add 将 高 16 位 与 寄存 器 $sl 相 加 。 (Intel 的 基 址 
寻 址 模式 还 有 另外 的 名 字 基 址 和 下 标 ， 但 是 它们 本 质 上 是 等 同 的 ， 我 们 在 这 里 将 它们 合并 。) 


2.17.3 x86 整数 操作 


8086 提供 对 8 位 ( 字 节 ) 和 16 位 ( 字 ) 数据 类 型 的 支持 。80386 在 x86 结构 中 加 入 了 32 
位 的 地 址 和 数据 〈( 双 字 ) 。(AMD64 又 增添 了 64 位 的 地 址 和 数据 ， 叫 作 四 字 ; 本 小 节 我 们 将 关 
注 80386。) 数据 类 型 的 不 同 也 造成 了 寄存 器 操作 和 存储 器 访问 的 不 同 。 

几乎 所 有 操作 都 能 在 8 位 和 一 个 更 长 的 数据 上 进行 。 这 个 最 长 的 数据 大 小 取决 于 运行 的 模 
式 ， 可 能 是 16 位 也 可 能 是 32 位 。 

显然 ， 有 些 程序 希望 操作 所 有 三 种 长 度 的 数据 ， 于 是 80386 系统 结构 提供 一 种 不 用 明显 增加 
代码 长 度 的 方便 途径 来 指定 每 一 种 形式 。 它 们 认为 大 多 数 程序 中 16 位 或 32 位 数据 占 绝 大 多 数 ， 
于 是 设 定 一 个 默认 的 较 长 长 度 是 有 意义 的 。 这 个 默认 的 数据 长 度 由 代码 段 寄 存 器 中 的 一 位 指定 。 
若 要 改变 默认 数据 长 度 ， 需 在 指令 前 附加 8 位 前 缓 告诉 机 器 这 条 指令 使 用 其 他 数据 长 度 。 

使 用 前 级 是 从 8086 借鉴 过 来 的 ，8086 可 使 用 多 种 前 级 来 改变 指令 的 行为 。 最 初 的 三 个 前 
缀 包括 忽略 默认 的 段 寄 存 器 ， 给 总 线 加 锁 来 支持 同步 ( 见 2. 11 节 ) ， 或 重复 后 面 的 指令 直到 寄 
存 器 ECX 减少 到 0。 最 后 一 个 前 缀 要 配合 一 个 字 节 传送 指令 使 用 以 便 传送 可 变数 目的 字 节 。 
80386 还 加 入 一 个 前 级 以 改变 默认 的 地 址 长 度 。 

x86 整数 操作 可 以 分 为 4 个 主要 的 类 : 

1) 数据 传送 指令 ， 包 括 move、push 和 pop。 

2) 算术 和 逻辑 指令 ， 包 括 测试 、 整 数 和 小 数 算术 运算 。 

3) 控制 流 ， 包 括 条 件 分 支 、 无 条 件 跳 转 、 调 用 和 返回 。 

4) 字符 串 指令 ， 包 括 字符 串 传 送 和 字符 串 比 较 。 

除了 算术 和 逻辑 操作 指令 的 结果 既 可 以 保存 在 寄存 器 也 可 以 保存 在 存储 器 地 址 外 ， 前 两 个 
种 类 没有 值得 关注 之 处 。 图 2-39 展示 了 典型 的 x86 指令 和 它们 的 功能 。 

x86 的 条 件 分 支 像 ARMv7 一 样 基于 条 件 码 (condition code) 或 标志 位 (flag)。 条 件 码 是 作为 
一 些 操作 的 副作用 被 设置 的 ， 大 部 分 被 用 作 将 结果 与 0 比较 ， 然 后 使 用 分 支 指令 测试 条 件 码 。PC 
相对 分 支 地 址 必须 以 字 节 数 来 指定 ， 这 与 ARMv 和 MIPS 不 同 ，80386 的 指令 不 都 是 4 字 节 长 的 。 
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指令 EE 

本 if equal (condition code) {EIP =name}; 
EIP -128 <=name <EIP +128 

jmp name EIP =name 
call name SP=SP-4;M[ SP] =EIP +5; EIP =name; 
movw EBX, [ EDI +45] EBX =M[ EDI +45] 
push ESI SP=SP-4; M[SP] =ESI 
pop EDI | EDI =M[ SP]; SP=SP+4 
add EAX,#6765 EAX =EAX +6765 























test EDX,#42 Set condition code (flags) with EDX and 42 
MLEDI] =M[L ESI]; 

movs1 
EDI =EDI +4; ESI =ESI +4 


2-39 ”x86 的 一 些 典 型 指令 和 它们 的 功能 。 常 用 操作 的 列表 在 图 2-40 中 。CALL 将 下 一 条 指令 的 EIP 保 
存在 栈 上 。(EIP 是 Intel 的 程序 计数 器 。) 


字符 串 指 令 是 x86 的 祖先 8080 的 一 部 分 ， 在 大 部 分 程序 中 都 不 使 用 。 它 们 常常 比 同等 功 
能 的 软件 例 程 要 慢 〈 见 2. 19 节 的 廖 误 ) 。 
图 2-40 列 出 了 一 些 x86 的 整数 指令 。 这 些 指 令 大 部 分 都 同时 有 字 节 和 字 格 式 。 




















控制 指令 条 件 和 无 条 件 分 支 
jnz,jz 条 件 成 立 跳 转 到 EIP +8 位 偏 移 量 ; JNE (for JNZ) ，JE (for JZ) 两 者 之 一 
jmp 无 条 件 跳 转 一 一 8 位 或 16 位 偏 移 量 











| 


= 


到 从 校 中 弹出 返回 地 址 并 跳 转 到 该 地 址 处 

loop 循环 分 支 一 递 碱 ECX; 如 果 ECX 非 零 ， 则 跳 转 到 EIP +8 位 偏 移 处 

数据 传输 在 寄存 器 之 间或 寄存 器 和 存储 器 之 间 传 递 数据 
[ee 在 两 个 寄存 器 之 间或 寄存 器 和 存储 器 之 间 传 递 数据 


push,pop 将 源 操作 数 压 栈 ， 将 栈 顶 数据 取 到 寄存 器 中 | 


call 过 程 调用 一 一 16 位 偏 移 量 ; 返回 地 址 压 人 栈 中 
































les 从 存储 器 中 取 ES 和 一 个 GPR 

算术 、 逻 辑 使 用 数据 寄存 器 和 存储 器 的 算术 和 逻辑 操作 

add, sub 将 源 操作 数 与 目的 操作 数 相 加 ， 从 目的 操作 数 中 减 去 源 操作 数 ; 寄存 器 -存储 器 格式 
cmp | 比较 源 和 目的 操作 数 ; 寄存 器 - 存储 器 格式 





Sh1,Shr, 工 CT 左 移 ; 逻辑 右 移 ; 循环 右 移 并 用 条 件 码 填充 

将 EAX 最 右 8 位 字 节 转换 成 EAX 最 右 16 位 字 

将 源 操作 数 和 目的 操作 数 进行 逻辑 与 ， 并 设置 条 件 码 

递增 目的 操作 数 ， 递 减 目的 操作 数 

逻辑 或 ; 异 或 ; 寄存 器 -存储 器 格式 

在 字符 串 操作 数 之 间 移 动 ; 由 重复 前 缀 给 出 长 度 

通过 递增 .ESI 和 EDI 从 源 字符 串 复制 到 目的 字符 串 ; 可 能 使 用 重复 
从 字符 串 中 取 字 节 、 字 或 双 字 到 寄存 器 EAX 


图 2-40 一 些 典 型 的 x86 操作 。 很 多 操作 使 用 寄存 器 - 存储 器 格式 ， 这 种 格式 要 求 源 操作 数 或 目的 操作 
数 可 以 是 存储 器 ， 另 一 个 操作 数 可 以 是 寄存 器 或 立即 数 
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2. 17.4 x86 指令 编码 


把 最 糟 的 放 在 最 后 一 一 80386 的 指令 编码 是 非常 复杂 的 ， 有 多 种 不 同 指令 格式 。 当 没有 操 
作 数 的 时 候 ，80386 的 指令 可 以 是 1 字 节 ， 最 长 到 15 字 节 。 

图 2-41 展示 了 图 2-39 中 几 条 指令 的 格式 。 操 作 码 字 节 中 通常 有 一 位 用 来 表明 操作 数 是 8 
位 还 是 32 位 。 一 些 指令 的 操作 码 可 能 还 包含 寻 址 模式 和 寄存 器 ， 例 如 ， 很 多 的 指令 具有 如 下 
形式 “寄存 器 = 寄存 器 操作 立即 数 ” 。 其 他 指令 使 用 寻 址 模式 的 “后 置 字 节 ”或 额外 的 操作 码 
字 节 ， 标 记 为 “mod，reg，zm” (模式 ， 寄 存 器 ， 寄 存 器 /存储 器 ) 。 这 个 后 置 字 节 在 寻 址 存 
储 器 的 很 多 指令 中 都 被 用 到 。 基 址 加 比例 下 标的 寻 址 模式 需要 使 用 第 二 个 后 置 字 节 ， 标 记 为 
“sc，index，base”( 比例 ， 下 标 ， 基 址 )。 


a.JE EIP + displacement 
4 8 


4 


b.CALL 


8 


c.MOV EBX, [EDI + 45] 





6 1 1 8 8 
Im 
d.PUSH ESI 


5 3 
PUSH 


€.ADD EAX, #6765 


4 3 32 
a eh i 
f.TEST EDX, #42 


7 1 8 32 


2-41 典型 的 x86 指令 格式 。 图 2-42 给 出 后 置 字 节 (postbyte) 的 编码 。 很 多 指令 包含 1 位 的 w 段 ,这 
个 字段 说 明 操 作 的 是 一 个 字 节 还 是 一 个 双 字 。Mov 中 d 字段 用 于 从 存储 器 中 传 出 或 传人 数据 的 
指令 并 指明 传输 方向 。ADD 指令 需要 32 位 的 立即 数字 段 ， 因 为 在 32 位 模式 下 ， 立 即 数 或 者 是 
8 位 或 者 是 32 位 。TEST 中 的 立即 数字 段 也 是 32 位 长 ， 是 因为 在 32 位 模式 下 没有 8 位 的 立即 数 
要 判断 。 总 的 来 说 ， 指 令 长 度 可 以 从 1 字 节 到 15 字 节 变 化 。 较 长 的 长 度 产生 于 额外 的 1 字 节 前 
缀 ， 该 长 度 具 有 4 字 节 的 立即 数 和 4 字 节 的 偏 移 地 址 ， 使 用 2 字 节 的 操作 码 ， 并 使 用 比例 下 标 
模式 说 明 符 ， 这 还 需要 一 个 额外 的 字 节 


图 2-42 展示 了 16 位 和 32 位 模式 的 两 个 后 置 字 节 地 址 指定 的 编码 。 不 幸 的 是 ， 为 了 全 面 理 
解 哪 个 寄存 器 和 哪 种 寻 址 模式 可 用 ， 你 需要 看 所 有 寻 址 模式 的 编码 ， 有 时 甚至 需要 看 指令 
编码 。 
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eb 
] 了 







































































16b |32b 16b 32b | 16b 32b 16b 32b | 

| 0 |AL |AX IEAX| 0 |addr=BX+SI | =EAX | same [same 和 He sai 

1 |CL |CX IECX| 1 addr=BX+DI | =ECX addr as addr as addr as addr as as 

2 |DL |px lgEpx| 2 Jagdr=BP+SI | =EDX | mod=0 Imod=0 mde0 lnod=0 i 

3 |BL |BX IEBX| 3 laddr=BP+SI | =EBX | +disps |+disp8 +digp16 | + 机 p 和 2 field 

4 | AH | SP |EsP 4 |aade=Sr = | Se lsi) + disp8 加 riaps * |(sib) ssp32| “ 

5 |cH |BP |EBP| 5 |addr=DI =disp32 | DI+ disp8 |EBP+disp8 | DI+displ6 |EBP+disp32| “ 

6 IDH |sr |Esl | 6 laddr=displ6 | =ESI | BP+disp8 |ESI+disp8 | BP+displ6 |ESI+disp32 | “ 
| 7 CE [apr | 7 Jaddr = BX | =EDI | BX +disp8 |EDI+disp8 |BX+disp16 |EDI+ disp32 下 妆 | 








图 2-42 x86 的 第 一 个 地 址 说 明 符 的 编码 : mod，reg，r/m。 前 4 列表 示 3 位 的 reg 字段 ， 它 依赖 于 操作 
码 中 的 w 位 以 及 机 器 是 工作 在 16 位 (8086) 模式 还 是 32 位 (80386) 模式 。 余 下 的 列 解释 了 
mod 和 zxm 字段 。3 位 的 wm 字段 依赖 于 2 位 的 mod 字段 和 地 址 的 大 小 。 用 于 地 址 计算 的 寄存 
器 列 在 第 六 和 第 七 列 中 ，mod =0 时 依赖 于 寻 址 模式 ，mod =1 时 加 上 8 位 的 偏 移 量 ，mod =2 时 
加 上 16 位 或 32 位 的 偏 移 量 。 例 外 的 情况 有 以 下 几 种 : 1) 当 mod=1 或 mod=2, 在 16 位 模式 
时 ，r/m =6 选择 BP 加 上 偏 移 。2) 当 mod =1 或 mod =2, 在 32 位 模式 时 ，r/m =5 选择 EBP 加 
上 偏 移 量 。3) 当 mod 不 等 于 3， 在 32 位 模式 时 ，r/m =4，(sib) 代表 使 用 图 2-38 中 的 比例 下 
标 模式 。 当 mod =3 时 ，r/m 字段 指定 一 个 寄存 器 ， 与 w 位 组 合 在 一 起 和 reg 字段 的 编码 相同 


2. 17.5 x86 总 结 


Intel 的 16 位 微 处 理 器 比 它 的 竞争 对 手 的 更 优秀 的 体系 结构 (如 Motorola 68000) 早 两 年 问 
世 ， 这 个 领先 使 得 IBM 选用 8086 作为 其 PC 的 CPU。Intel 的 工程 师 普 遍 认识 到 x86 要 比 ARMv7 
和 MIPS 的 计算 机 更 难 制造 ， 但 是 巨大 的 市 场 意味 着 AMD 和 Intel 可 以 投入 更 多 的 资源 来 克服 
这 些 额外 的 复杂 性 。 数 量 上 的 巨大 优势 弥补 了 风格 上 的 缺点 ， 这 使 得 x86 前 景 美 好 。 

x86 中 最 常 使 用 的 体系 结构 组 成 部 分 是 不 难 实现 的 ， 从 1978 年 开始 AMD 和 Intel 就 展示 了 
整数 程序 性 能 的 快速 改进 。 为 了 获得 这 样 的 性 能 ， 编 译 器 必须 避免 那些 难于 实现 快速 执行 的 体 
系 结构 部 分 。 

然而 ， 在 后 PC 时 代 ， 虽 然 有 大 量 的 体系 结构 和 制造 专家 基于 x86 做 工作 ,但 是 x86 在 个 
人 移动 设备 里 面 还 不 具有 竞争 力 。 


2. 18 实例 : ARMv8 (64 位 ) 指令 集 


在 一 个 指令 集 所 具有 的 所 有 潜在 问题 中 ， 最 不 可 能 解决 的 就 是 地 址 空间 太 小 的 问题 。x86 
是 第 一 个 扩展 为 32 位 地 址 的 ， 并 且 是 第 一 个 扩展 为 64 位 地 址 的 指令 集 ， 许 多 其 他 的 指令 系统 
都 被 落 在 了 后 面 。 例 如 ， 虽 然 具有 16 位 地 址 的 MOStek 6502 指令 集 统 治 了 Apple 下， 但 是 Ap- 
ple 开 即 使 是 第 一 个 成 功 的 商用 个 人 计算 机 的 领头 羊 ， 却 也 由 于 其 地 址 空间 上 的 缺陷 饱 受 诉 病 。 

虽然 ARM 体系 结构 遇 到 了 32 位 地 址 空间 的 限制 ， 在 2007 年 开始 设计 具有 64 位 地 址 的 
ARM， 并 最 终 在 2013 年 完成 。 与 x86 中 为 了 使 寄存 器 加 宽 为 64 位 只 做 了 很 小 改变 不 同 ，ARM 
作 了 完全 的 改进 。 如 果 你 了 解 MIPS， 那 就 非常 容易 了 解 64 位 版 本 的 ARMv8 。 

首先 ， 与 MIPS 相 比 ，ARM 舍弃 了 w 中 并 不 常用 的 一 些 特性 : 

。 v8 中 没有 条 件 执行 字段 ， 而 在 v7 中 几乎 每 条 指令 都 有 该 字段 。 

。 立即 数字 段 仅仅 是 一 个 12 位 的 常数 ， 而 在 v7 中 是 产生 一 个 常数 的 函数 的 输入 。 

e ARM 含 弃 了 Load Multiple 和 Store Multiple 指令 。 

。 PC 不 再 是 一 个 寄存 器 ， 因 此 如 果 对 其 进行 写 操作 将 会 导致 非 预期 的 分 支 转移 。 
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其 次 ，ARM 添加 了 一 些 MIPS 中 有 用 的 特征 : 

。 v8 有 32 个 通用 寄存 器 ， 编 译 器 设计 者 非常 喜欢 该 特点 。 与 MIPS 相同 ， 一 个 寄存 器 永 
远 存 放 0， 虽 然 在 load 和 store 指令 中 该 寄存 器 将 由 栈 指针 替代 。 

。 ARMv8 的 寻 址 方式 是 用 于 所 有 的 字 长 ， 而 在 ARMv7 中 并 非 如 此 。 

。 它 包含 ARMYV7 中 省 掉 的 除法 指令 。 

。 它 增 加 了 MIPS 中 的 相等 或 不 等 的 条 件 分 支 指令 。 

由 于 v8 相对 于 v7 而 言 ， 其 指令 集 更 像 MIPS， 因 此 我 们 的 结论 是 ARMv 和 ARMv8 的 主要 

相同 点 仅仅 是 名 字 。 


2. 19 ， 廖 误 与 陷阱 


谬误 : 更 强大 的 指令 意味 着 更 高 的 性 能 。 

x86 的 一 个 强大 的 地 方 是 可 以 通过 前 缀 来 改变 后 续 指令 的 执行 。 某 个 前 级 可 以 重复 执行 后 
面 的 指令 直到 一 个 计数 器 减少 至 0。 因 此 ， 为 了 在 存储 器 中 传输 数据 ， 看 起 来 最 自然 的 指令 序 
列 应 该 是 使 用 加 了 重复 前 缀 的 move 指令 来 实现 32 位 的 存储 器 到 存储 器 的 传输 。 

另外 一 种 方法 是 使 用 所 有 计算 机 上 都 有 的 标准 指令 ， 将 数据 取 到 寄存 器 后 再 存 回 存储 器 。 
这 种 形式 通过 代码 复制 来 减少 循环 开销 ， 复 制 操作 大 约 快 1.5 倍 。 第 三 种 方式 ， 使 用 更 大 的 浮 
点 寄存 器 代替 x86 的 整数 寄存 器 ， 复 制 操作 比 使 用 复杂 指令 快 2 倍 。 

请 误 : 使 用 汇编 语言 编程 来 获得 最 高 的 性 能 。 

在 一 段 时 间 内 ， 编 程 语 言 的 编译 器 经 常 产 生 很 低级 的 指令 序列 。 通 过 不 断 改进 ， 编 译 器 产生 的 
代码 与 手工 编写 的 代码 在 性 能 上 的 差距 正在 快速 缩小 。 事 实 上 ， 为 了 与 当今 编译 器 竞争 ， 汇 编程 序 
员 需 要 深刻 理解 第 4 章 和 第 5 章 中 的 计算 机 体系 结构 概念 〈 包 括 处 理 器 流水 线 和 存储 器 层次 ) 。 

. 编译 器 和 汇编 程序 员 之 间 的 斗争 正在 逐渐 消失 。 例 如 ，C 为 程序 员 提 供 一 个 指示 编译 器 把 变 
量 保存 在 寄存 器 中 而 不 是 换 出 到 存储 器 中 的 机 会 。 当 编译 器 在 寄存 器 分 配 上 能 力 较 差 时 ， 这 种 指 
示 对 性 能 至 关 重 要 。 事 实 上， 一 些 较 老 的 C 语言 课本 花费 大 量 的 时 间 给 出 了 有 效 的 寄存 器 指示 的 
例子 。 今 天 的 C 语言 编译 器 通常 忽略 这 种 指示 ， 因 为 编译 器 能 比 程序 员 更 好 地 分 配 寄存 器 。 

即使 手工 编写 会 产生 更 快 的 代码 ， 汇 编 语言 编写 还 是 存在 很 多 危险 : 需要 更 多 时 间 编 码 和 
调试 ， 可 移植 性 差 ， 难 于 维护 。 软 件 工程 中 少数 几 个 被 广泛 接受 的 公理 之 一 是 编写 的 程序 行 数 
越 多 所 花 时 间 也 越 多 。 很 明显 使 用 汇编 语言 编写 的 程序 比 C 或 Java 更 长 。 一 旦 代码 写 好 ， 下 
一 个 危险 将 是 它 会 变 成 一 个 流行 的 程序 。 这 种 程序 存在 的 时 间 总 是 比 预 期 要 长 ， 意 味 着 程序 员 
需要 每 隔 几 年 就 更 新 一 下 代码 使 新 的 版 本 可 以 运行 在 新 的 操作 系统 和 新 机 器 上 。 高 级 语言 而 不 
是 汇编 语言 编写 的 程序 不 仅 可 以 使 未 来 的 编译 器 为 未 来 的 机 器 生成 代码 ， 还 可 以 使 软件 易于 维 
护 并 运行 在 其 他 类 型 的 计算 机 上 。 

谓 误 : 商用 计算 机 二 进 制 兼容 的 重要 性 意味 着 成 功 的 指令 集 不 需 改 变 。 

在 向 后 的 二 进 制 兼容 是 神圣 不 可 侵犯 的 同时 ， 图 2-43 显示 了 x86 指令 集 的 快速 发 展 。 在 
35 年 中 ， 平 均 每 个 月 至 少 增加 一 条 新 的 指令 。 

陷阱 : 忘记 在 字 节 寻 址 的 机 器 中 ， 连 续 的 字 地 址 相差 不 是 1。 

很 多 汇编 程序 员 假 定 下 一 个 字 地 址 可 以 通过 将 寄存 器 的 值 加 1 来 获得 ， 而 不 是 增加 一 个 字 
的 字 节 数 ， 这 使 他 们 犯 下 很 多 错误 。 提 前 注意 以 便 有 所 准备 ! 

陷阱 : 在 自动 变量 的 定义 过 程 外 ， 使 用 指针 指向 该 变量 。 

处 理 指针 的 常见 错误 是 使 用 指向 一 个 过 程 中 局 部 数组 的 指针 ， 从 该 过 程 传 出 结果 。 遵 从 
图 2-12 中 的 栈 规则 ， 当 过 程 返回 时 ， 包 含 局 部 数组 的 存储 器 将 立即 被 重新 使 用 。 指 向 自动 变量 
的 指针 会 造成 混乱 。 
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600 
0 图 2-43 ”随时 间 推移 x86 指令 集 的 增 
长 。 这 种 扩展 是 有 一 定 的 技 
术 价值 的 ， 迅 速 的 变化 也 增 
加 了 其 他 公司 试图 做 兼容 处 
理 器 的 难度 
0 
CC SC SYS 


年 


2. 20 ”本 章 小 结 


少 就 是 多 。 
一 一 Robert Browning, 《Andrea del Sarto) ,1855 

存储 程序 计算 机 的 两 个 准则 是 指令 的 使 用 与 数字 没有 区 别 ， 以 及 使 用 可 修改 的 存储 器 。 这 
些 准 则 使 一 台 计 算 机 可 以 在 不 同 的 领域 辅助 环境 科学 家 、 经 济 顾问 和 小 说 家 。 选 择机 器 可 以 理 
解 的 指令 集 需 要 精妙 的 平衡 程序 执行 需要 的 指令 数目 、 指 令 执行 所 需 的 时 钟 周期 数 和 时 钟 的 速 
度 。 就 像 本 章 所 描述 的 ， 在 做 精妙 平衡 时 有 3 条 准则 可 以 指导 设计 者 : 

1) 简单 源 于 规整 。 规 整 性 使 MIPS 指令 集 具有 很 多 特点 : 所 有 指令 长 度 统一 、 算 术 指令 总 
是 需要 三 个 寄存 器 操作 数 和 寄存 器 字段 在 每 种 指令 格式 的 位 置 相同 。 

2) 越 小 越 快 。 对 速度 的 要 求 导致 MIPS 只 有 32 个 寄存 器 而 不 是 更 多 。 

3) 优秀 的 设计 需要 好 的 折 中 。 一 个 MIPS 例子 是 在 指令 中 提供 更 大 地 址 与 常数 ， 并 且 保 持 
所 有 的 指令 具有 相同 的 长 度 之 间 的 折 中 。 

与 计算 机 体系 结构 相同 ， 在 指令 集中 也 会 看 到 “加 速 大 概率 事件 ”的 伟大 思想 。 该 思想 
在 MIPS 中 的 体现 包括 条 件 分 支 的 PC 相对 寻 址 和 大 常数 操作 数 的 立即 数 寻 址 。 

机 器 语言 之 上 是 人 们 可 读 的 汇编 语言 。 汇 编 器 将 翻译 为 机 器 可 以 理解 的 二 进 制 数 ， 它 甚至 
通过 创造 硬件 中 没有 的 符号 指令 来 “扩展 ”指令 集 。 例 如 ， 较 大 的 常量 和 地 址 被 切割 成 合适 
的 大 小 ， 常 用 的 指令 变 体 都 有 它们 自己 的 名 字 ， 等 等 。 图 2-44 列举 了 到 目前 为 止 我 们 讲 过 的 
MIPS 指令 ， 包 括 实际 指令 和 伪 指令 。 在 更 高 级 别 隐 藏 细节 是 伟大 思想 “抽象 ”的 另外 一 个 
例子 。 

每 一 类 MIPS 指令 与 编程 语言 中 出 现 的 结构 相关 : 

。 算术 指令 对 应 于 赋值 语句 中 的 运算 。 

。 传输 指令 很 可 能 发 生 在 处 理 像 数组 和 结构 体 这 样 的 数据 结构 时 。 

。 条 件 分 支 被 用 于 半 语 句 和 循环 。 

。 无 条 件 分 支 被 用 于 过 程 调用 和 返回 以 及 case/switch 语句 。 

这 些 指 令 出 现 频 率 不 相等 ， 少 数 指令 出 现 频 率 较 大 。 例 如 ， 图 2-45 展示 了 SPEC CPU 2006 
中 每 类 指令 出 现 的 频率 。 指 令 出 现 频 率 的 不 同 在 数据 通路 、 控 制 通路 和 流水 线 的 特征 分 析 中 扮 
演 重要 角色 。 | 


UL MIPS 扣 令 | 名 称 | 格式 用 MIPS 仿 指 信 | 名 称 | 格式 




















加 立即 数 





取 字 取 立 即 数 





ee 小 于 时 中 转 me | 
取 半 字 

取 无 符号 半 字 i me || 
| 大 于 时 时 县 


取 字 节 
取 无 符号 字 节 大 于 或 相等 时 跳 转 



























































远 辑 右 移 
相等 时 跳 转 
不 相等 时 跳 转 
小 于 时 置 位 

| 小 于 立即 数 时 置 位 | 

| 小 于 无 符号 立即 数 时 置 位 | sltiu | 


跳 转 至 寄存 器 所 指 位 置 
跳 转 和 链接 
图 2-44 到 目前 为 止 介绍 过 的 MIPS 指令 集 ， 左 侧 是 真实 的 MIPS 指令 ， 右 侧 是 伪 指 令 。 附 录 A (A.10 
节 ) 描述 了 完整 的 MIPS 体系 结构 。 图 2-1 展示 了 与 本 章 相关 的 更 细致 的 MIPS 体系 结构 。 这 里 
给 出 的 信息 可 在 MIPS 参考 数据 卡 的 第 1 和 第 2 列 查 到 























j ,jz,jar 


图 2-45 MIPS 指令 分 类 、 范 例 以 及 相应 的 高 级 编程 语言 结构 和 SPEC CPU 2006 测试 程序 执行 时 定 、 浮 点 
指令 所 占 的 比例 。 第 3 章 中 的 图 3-26 展示 了 每 条 MIPS 指令 执行 时 所 占 的 平均 比例 


在 第 3 章 解释 计算 机 算术 运算 之 后 ,我 们 将 继续 揭示 MIPS 指令 集体 系 结构 。 


时 2.21 历史 观点 和 拓展 阅读 
本 节 概述 了 指令 集体 系 结构 (ISA) 的 历史 ,我 们 介绍 了 编程 语言 和 编译 器 的 简短 历史 。 
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ISA 包括 累加 器 体系 结构 、 通 用 寄存 器 体系 结构 、 栈 体系 结构 和 ARM 及 x86 的 简 史 。 我 们 还 回 
顾 了 高 级 语言 计算 机 体系 结构 中 的 争议 问题 和 精简 指令 集体 系 结构 。 编 程 语言 的 历史 包括 For- 
tran 、Lisp 、Algol、C 、Cobol 、Pascal 、Simula、Smalltalk 、C + + 和 Java。 编 译 器 的 历史 包括 重要 
的 里 程 碑 和 实现 它们 的 先驱 。 本 节 剩 余部 分 在 配套 网 站 中 的 2. 21 节 中 。 


2.22 练习 题 


附录 A 描述 了 对 这 些 练习 有 帮助 的 MIPS 的 模拟 器 。 尽 管 模拟 器 可 以 接受 伪 指 令 ， 但 是 在 要 求 产生 
MIPS 代码 的 习题 中 ， 尽 量 不 要 使 用 伪 指令 。 你 的 目的 是 学 习 实 际 的 MIPS 指令 集 ， 如 果 问 你 指令 数 ， 你 
所 给 出 的 答案 必须 反映 实际 执行 的 指令 数 而 不 是 伪 指 令 。 
有 些 情况 必须 使 用 伪 指 令 ( 例 如 ， 当 汇编 时 不 知道 真实 值 时 ， 使 用 1a 指令 )。 还 有 些 情 况 下 ,使 用 
伪 指 令 会 更 方便 并 使 代码 可 读 性 变 好 (例如 ，1i 和 move 指令 )。 如 果 你 因为 这 些 原因 选择 使 用 伪 指 令 ， 
请 在 伪 指令 开始 的 地 方 加 上 一 两 句 话 ， 说 明 你 使 用 伪 指令 的 原因 。 
2.1 [5]<2.2> 下 面 的 C 语言 表达 式 对 应 的 MIPS 汇编 语言 代码 是 什么 ?假设 给 定 变量 fE、g、h 和 
i, 像 在 C 程序 中 声明 的 一 样 它们 都 是 32 位 的 整数 ， 使 用 最 少 的 MIPS 汇编 指令 
f=g+(h— 5); 
2.2 [5] <2.2> 下 面 的 MIPS 汇编 语言 程序 段 对 应 的 C 语言 表达 式 是 什么 ? 
add fg 
add ;sf 
2.3 [5] <2.2, 2.3> 下 面 的 C 语 言 表达 式 对 应 的 MIPS 汇编 代码 是 什么 ? 假设 变量 E、g、h、i 和 jj 
分 别 赋值 给 寄存 器 $s0、$sl、$s2、$s3 和 $s4。 假设 数组 A 和 B 的 基地 址 分 别 在 寄存 器 
$s6 和 $s7 中 。 
B[8] = ALi-j]: 
2.4 [5] <2.2, 2.3> 下 面 的 MIPS 汇编 语言 程序 段 对 应 的 C 语言 表达 式 是 什么 ? 假设 变量 E、g、h、 
i 和 j 分 别 赋 值 给 寄存 器 $s0、$sl、$s2、$s3 和 $s4。 假 设 数 组 A 和 B 的 基地 址 分 别 在 寄 
存 器 $s6 和 $s7 中 。 





sill $t0, $s0, 2 # $t0= ff * 4 
add $t0, $s6, $t0 # $t0 = &A[f] 
si LL; 2 # $tl =g*4 
add $tl, $s7, $tl  # $tl = &B[g] 
Iw $s0, 0($t0) # f = A[Lf] 


addi $t2, $t0, 4 
1w 0 0O($t2) 
add $t0, $t0, $s0 
Sw $t0,, OC St1) 
2.5 [5] <2.2, 2.3 > 在 不 改变 功能 的 前 提 下 ， 重 写 习题 2. 4 中 的 MIPS 程序 使 其 指令 数目 尽 可 能 少 。 
2.6 下 表 表 示 在 主 存 中 存放 的 一 个 数组 的 32 位 数据 。 
Address 
24 
38 


32 
36 
40 





2.6.1 [5] <2.2, 2.3 > 基于 上 表 中 数据 在 存储 器 中 的 位 置 ， 编 写 一 段 C 代码 ,将 数据 从 小 到 大 排序 ， 

最 小 的 数 放 在 地 址 最 低 的 位 置 。( 假 设 这 段 数 据 代 表 了 C 的 一 个 Int 型 数组 Array， 并 且 这 人 台 特 

别 的 机 器 是 按照 字 节 寻 址 的 ， 且 一 个 字 包含 4 字 节 。) 

2.6.2 [5] <2.2, 2.3 > 基于 上 表 中 数据 在 存储 器 中 的 位 置 ， 编 写 一 段 MIPS 代码 ， 将 数据 从 小 到 大 排 
序 ， 最 小 的 数 放 在 地 址 最 低 的 位 置 。( 使 用 最 少 的 MIPS 汇编 指令 ， 假 设 Array 的 基地 址 保存 在 
寄存 器 $s6 中 。) 





+ 
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[5] <2.3 > 分 别 画 出 数据 0xabcdef12 在 大 端 编 址 和 小 端 编 址 的 机 器 上 是 如 何 分 布 在 存储 器 中 
的 。( 假 定数 据 从 地 址 0 开始 存储 。) 

[5] <2.4> 将 0xabcdef12 转化 为 十 进 制 。 

[5] <2.2, 2.3> 把 下 面 的 C 代码 翻译 为 MIPS 代码 。 假 定 变量 £、g、h、i 和 j 分 别 赋 值 给 寄 
存 器 $s0、$sl1、$s2、$s3 和 $s4。 假 定数 组 A 和 数组 B 的 基地 址 分 别 存 放 在 $s6 和 $s7 
中 。 假 定数 组 A 和 数组 B 中 的 元 素 均 为 4 字 节 的 字 : 

BL8] = A[i] + Arj]; 

[5] <2.2, 2.3 > 把 下 面 的 MIPS 代码 翻译 为 C 代码 。 假 定 变量 {、g、h、i 和 jj 分 别 赋值 给 寄 
存 器 $s0、$sl、$s2、$s3 和 $s4。 假定 数组 A 和 数组 B 的 基地 址 分 别 存 放 在 $s6 和 $ 


s7 中 。 

addi $t0, $s6, 4 
add $tl, $s6, $0 
SW $t]1, 0($t0) 

] WwW $t0，0($t0 ) 
add $s0, $tl, $t0 


[5] <2.2, 2.5 > 对 于 每 条 MIPS 指令 ， 写 出 操作 码 (OP)、 源 操作 数 (RS) 和 目标 操作 数 
(RT) 的 值 (value) 。 对 于 工 型 指令 ， 写 出 立即 数字 段 的 值 。 对 于 R 型 指令 ， 写 出 目的 寄存 器 
(RD) 字段 的 值 。 

假定 寄存 器 $s0 和 $sl 分 别 存放 数值 0x80000000 和 0xD0000000。 

[5] <2.4> 下 面 汇编 代码 的 $t0 的 值 是 多 少 ? 

add $t0, $s0, $sl 

[5] <2.4 > $t0 中 的 结果 是 期 望 的 结果 还 是 发 生 溢出 后 的 结果 ? 

[5] <2.4 > 对 于 上 面 定义 的 寄存 器 $s0 和 $sl 的 内 容 ， 下 面 汇编 代码 的 $t0 的 值 是 多 少 ? 

sub $t0, $s0, $sl 

[5] <2.4 > $t0 中 的 结果 是 期 望 的 结果 还 是 发 生 溢出 后 的 结果 ? 

[5] <2.4 > 对 于 上 面 定义 的 寄存 器 $s0 和 $sl 的 内 容 ， 下 面 汇编 代码 的 $t0 的 值 是 多 少 ? 


add $t0, $s0, $sl 
add $t0, $t0, $s0 


[5] <2.4 > $t0 中 的 结果 是 期 望 的 结果 还 是 发 生 溢出 后 的 结果 ? 

假定 $s0 中 的 值 为 1281。。 

[5] <2.4 > 对 于 指令 add $t0，$s0，$sl, 求 使 结果 产生 溢出 的 $sl 的 值 的 范围 。 

[5] <2.4 > 对 于 指令 sub $t0，$s0，$sl ， 求 使 结果 产生 溢出 的 $sl 的 值 的 范围 。 

[5] <2.4 > 对 于 指令 sub $t0，$sl1，$s0， 求 使 结果 产生 溢出 的 $sl 的 值 的 范围 。 

[5] <2.2, 2.5 > 写 出 下 面 的 二 进 制 数值 对 应 的 类 型 和 汇编 语言 指令 : 

0000 0010 0001 0000 1000 0000 0010 0000， 

[5] <2.2，2.5 > 给 出 下 面 指令 的 类 型 和 十 六 进 制 表示 : sw $t1l, 32 ($t2) 

[5] <2.5 > 写 出 用 下 面 MIPS 字段 描述 的 指令 的 类 型 、 汇 编 语 言 指令 和 二 进 制 表 示 : 

op=0, rs=3, rt=2, rd=3, shamt=0, funct=34 

[5] <2.5 > 写 出 用 下 面 MIPS 字段 描述 的 指令 的 类 型 、 汇 编 语 言 指令 和 二 进 制 表示 : 
op=0x23,，rs=1, rt=2, const=0x4 

假设 可 以 将 MIPS 寄存 器 文件 扩展 到 128 个 寄存 器 ， 并 将 指令 集中 的 指令 数 扩展 为 原来 的 4 倍 。 
[5] <2.5 > 这 将 如 何 影 响 R 型 指令 的 每 个 位 字段 的 大 小 ? 

[5] <2.5 > 这 将 如 何 影 响 I 型 指令 的 每 个 位 字段 的 大 小 ? 

[5] <2.5, 2. 10 > 在 提出 的 这 两 种 变化 中 ， 每 种 变化 如 何 减 少 一 个 MIPS 汇编 程序 的 大 小 ? 田 
一 方面 ， 如 何 增 大 一 个 MIPS 汇编 程序 的 大 小 ? 

假设 如 下 寄存 器 内 容 : 


$t0 = 0xAAAAAAAA，$t1l = 0x12345678 
[5].<2.6 > 对 于 以 上 的 寄存 器 内 容 ， 执 行 下 面 的 指令 序列 后 $t2 的 值 是 多 少 ? 


167 


168 


114 


2.19.2 


2.19.3 


2.20 


2.21 


2.22 


2.23 


2.24 


2.25 
2. 25. 1 


2.25.2 
2.26 


2. 26. 1 


2. 26.2 


2. 26. 3 
2. 27 


2. 28 


2. 29 





S11 $t2，$t0，44 
GF $t2， 2， 轩 1 


[5] <2.6 > 对 于 以 上 的 寄存 器 内 容 ， 执 行 下 面 的 指令 序列 后 $t2 的 值 是 多 少 ? 
s11 $t2, $t0, 4 
andi $t2, $t2, -1 


[5] <2.6 > 对 于 以 上 的 寄存 器 内 容 ， 执 行 下 面 的 指令 序列 后 $t2 的 值 是 多 少 ? 

SF 2, 9 

andi $t2，$t2 ，0OXFFEF 

[5] <2.6 > 找 出 完成 如 下 功能 的 最 短 的 MIPS 指令 序列 : 从 寄存 器 $t0 中 提取 第 16 位 到 第 11 
位 ， 然 后 使 用 这 些 位 替换 寄存 器 $tl 的 第 31 位 到 第 26 位 ， 保 持 其 他 位 不 变 。 

[5] <2.6 > 写 出 可 用 来 实现 下 面 伪 指令 的 MIPS 指令 集 的 最 小 子 集 : 

not $tl1, $t2 // bit-wise invert 

[5] <2.6 > 对 于 下 面 的 C 语言 表达 式 ， 写 一 个 能 够 完成 同样 操作 的 最 短 MIPS 汇编 指令 程序 段 。 
假设 $tl =A，$t2 =B，$sl 是 C 的 基地 址 。 

A= C[0] << 4; 


[5] <2.7 > 假设 $t0 中 存放 数值 0x00101000 ， 在 执行 下 列 指令 后 $t2 的 值 是 多 少 ? 
sit $t2, $0, $t0 
bne S$t2, $0, ELSE 
DONE 
ELSE: addi $t2, $t2, 2 
DONE: 


[5] <2.7 > 假设 程序 计数 器 (PC) 被 设置 为 0x2000 0000， 是否 可 以 使 用 MIPS 的 跳 转 (j) 
指令 将 PC 设置 为 地 址 0x4000 0000? 是 否 可 以 使 用 MIPS 的 相等 则 分 支 (beq) 指令 将 PC 设 
置 为 该 地 址 ? 
MIPS 指令 集 不 包含 下 面 的 指令 : 
rpt $t2, loop # if(R[Lrs]>0) RErsJ=R[rs]-1l, PC=PC+4+BranchAddr 
[5] <2.7 > 如 果 要 在 MIPS 指令 集中 实现 该 指令 ， 哪 种 指令 格式 最 合适 ? 
[5] <2.7 > 能 够 实现 相同 操作 的 最 短 MIPS 指令 序列 是 什么 ? 
考虑 如 下 的 MIPS 循环 : 
LOOP: slt $t2, $0, $t1 

beq $t2, $0, DONE 

Subi 志 t]; $1 并 

addi $s2, $s2, 2 

j LOOP 
DONE: 
[5] <2.7 > 假设 寄存 器 $tl 的 初始 值 为 10， 假设 $t2 初始 值 为 0， 则 循环 执行 完毕 时 寄存 器 
$t2 的 值 是 多 少 ? 
[5] <2.7 > 对 于 上 面 的 循环 体 ， 写 出 等 价 的 C 代码 例 程 。 假 定 寄存 器 $sl1、$s2、S$tl 和 $t2 
分 别 为 整数 A、B、i 和 temp。 
[5] <2.7 > 假定 寄存 器 $tl 的 初始 值 为 N， 上 面 的 MIPS 汇编 循环 执行 了 多 少 条 指令 ? 
[5] <2.7 > 将 下 面 的 C 代码 翻译 为 MIPS 汇编 代码 。 要 求 使 用 的 指令 数目 最 少 。 假 设 值 a、b、 
i 和 j 分 别 存 放 在 寄存 器 $s0、$sl1、$t0 和 $tl 中 。 另 外 假设 寄存 器 $s2 中 存放 着 数组 D 
的 基地 址 。 
for(i=0; i<a; i++) 

for(j=0; jx*b; j++) 

DE4*] = 年 本村 3 
[5] <2.7 > 实现 习题 2.27 中 的 C 代码 用 了 多 少 条 MIPS 汇编 指令 ?如 果 变 量 a 和 b 分 别 初始 化 为 
10 和 1， 并 且 D 中 所 有 元 素 初 始 化 为 0， 将 整个 循环 执行 完成 时 ， 一 共 执行 了 多 少 条 MIPS 指令 ? 
[5] <2.7 > 将 下 面 的 循环 翻译 成 C 代码 。 假 定 寄存 器 $t1l 中 存放 C 语言 级 的 整数 i，$s2 中 存 
放 C 语言 级 的 整数 result，$s0 存放 整数 数组 MemArray 的 基地 址 。 


.A 
睛 令 


计算 机 的 语言 


addi 
LOOP: 


$tl, $0, $0 
1w $sl1, 0($s0) 
add $s2, $s2, $sl 
addi $s0, $s0, 4 
addi $tl, $t1, 


1 
$1t 本 2 直 读 1， 
bne $t2, 
2.30 
2.31 
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100 
$s0, LOOP 

int fib(int n){ 
return 0; 


[5] <2.7 > 将 习题 2.29 中 的 循环 重 写 以 减少 执行 的 MIPS 指令 。 
if (n==0) 


return 1; 
else 


[5] <2.8 > 使 用 MIPS 汇编 实现 下 面 的 C 代码 。 该 函数 一 共 执 行 了 多 少 条 MIPS 指令 ? 
else if (n == 1) 
2.32 


170 
return fib(n—1) + fib(n-2); 
TI 
2. 33 


器 的 使 用 情况 和 图 2-11 相同 。) 


int f(int a， 


[5] <2. 8 > 函数 经 常 被 编译 器 实现 为 内 联 “in-line” 的 形式 。 内 联 函 数 是 将 函数 体 复 制 到 程序 空间 
中 ， 以 消除 函数 调用 的 开销 。 对 于 上 面 的 函数 ， 请 用 MIPS 汇编 实现 内 联 版 本 的 C 代码 。 请 问 实 现 
这 个 函数 总 共 可 以 减少 多 少 条 MIPS 汇编 指令 ? (假设 C 的 变量 n 被 初始 化 为 5。) 

[5] <2. 8 > 对 于 每 一 次 函数 调用 ， 画 出 调用 后 栈 的 内 容 。 (假定 栈 指针 被 初始 化 为 0x7ffffffc， 寄 存 

hant Bb, nt 6 Tnt dd)! 

return func(func(a,b),c+d); 

} 
2。 
化 前 后 执行 £ 的 指令 数 的 差别 。 


将 下 面 的 函数 翻译 成 MIPS 汇编 语言 。 如 果 需 要 使 用 寄存 器 $t0 到 $t7 ， 请 从 编号 小 的 寄存 器 开 
始 使 用 。 假 设 函数 func 的 声明 为 “int f (int a，int b);”， 函 数 革 的 代码 如 下 : 


[5] <2.9> 用 MIPS 汇编 语 


< 


旺 


2. 38 


[5] <2.9 > 对 于 如 下 代码 : 
1bu $t0, 0($t1) 
Sw 


[5] <2. 8 > 请 问 这 个 函数 可 以 使 用 尾 调 用 优化 吗 ? 如 果 不 能 ， 请 说 明 原 因 。 如 果 能 ， 请 说 明 优 
数 。 在 程序 中 使 用 寄存 器 $a0 处 理由 数字 0 ~ 9 组 成 的 非 空 串 的 地 址 。 程 序 应 该 计算 与 这 个 数字 


[5] <2.8 > 在 习题 2. 34 中 函数 工 返 回 之 前 ， 我 们 可 以 知道 寄存 器 $t5、$s3、$ra 和 $sp 的 内 
容 吗 ? (注意 ， 我 们 知道 函数 £ 的 全 部 ,但 是 我 们 只 知道 函数 func 的 声明 。) 


2. 39 


2. 40 


写 一 段 代码 将 包含 十 进 制 正 整 数 和 负 整 数 的 ASCII 码 的 数 串 转换 成 整 
字符 串 “24”) ， 当 程序 停止 的 时 候 ， 寄 存 器 $v0 中 的 值 应 该 是 2410。 
$t0, 0($t2) 

址 中 存放 的 数值 是 多 少 ? 


串 等 值 的 整数 ， 并 将 这 个 整数 存放 在 寄存 器 $v0 中 。 如 果 在 字符 串 的 任意 位 置 出 现 非 数 字 字 符 ， 
2. 41 


171 
程序 停止 并 将 -1 存 人 $v0。 例 如 ， 如 果 寄 存 器 $a0 指向 3 字 节 的 序列 50,。，521。 ，01。( 非 终结 的 


假设 寄存 器 $t1 中 存放 地 址 0x1000 0000 ， 寄 存 器 $t2 中 存放 地 址 0x1000 0010。 注 意 MIPS 
码 ， 并 将 值 存储 到 寄存 器 $tl 中 。 
2.42 


体系 结构 使 用 大 端 地 址 。 假 设 地 址 0x1000 0000 的 数据 是 0x11223344。 寄 存 器 $t2 指向 的 地 
中 所 指定 的 PC 地 址 吗 ? 
中 所 指定 的 PC 地 址 吗 ? 


[5] <2. 10 > 请 编写 能 产生 32 位 常数 0010 0000 0000 0001 0100 1001 0010 0100;, 的 MIPS 代 
中 所 指定 的 PC 地 址 吗 ? 


[5] <2.6，2. 10 > 如 果 当 前 PC 值 是 0x00000000 ， 可 以 使 用 单独 的 跳 转 指令 跳 转 到 练习 题 2. 39 
[5] <2.6，2. 10 > 如 果 当 前 PC 值 是 0x00000600， 可 以 使 用 单独 的 分 支 指令 跳 转 到 练习 题 2. 39 


[5] <2.6，2. 10 > 如 果 当 前 PC 值 是 0x1FFF f000， 可 以 使 用 单独 的 分 支 指令 跳 转 到 练习 题 2. 39 
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2.43 


2.44 


2.45 


2.46 


2.46.1 


2.46.2 


2.47 
2.47.1 


2.47.2 


2. 47.3 





[5] <2.11 > 写 出 实现 下 面 C 代码 的 MIPS 汇编 代码 : 

lock(1k); 

shvar=max(shvar ,x); 

unlock(1k); 

假设 变量 1k 的 地 址 在 $a0 中 ， 变 量 shvar 的 地 址 在 $al 中 ,变量 x 的 地 址 在 $a2 中 。 你 所 
编写 的 这 个 重要 部 分 的 代码 不 能 包含 任何 函数 调用 。 使 用 11/sc 指令 实现 lock () 操作 ， 而 
unlock () 操作 可 以 简单 地 使 用 存 数 指令 。 

[5] <2. 11 > 重新 解决 练习 题 2. 43 中 的 问题 ， 不 过 这 次 使 用 11/sc 直接 完成 shvar 变量 的 原 
子 更 新 操作 ， 不 使 用 lock () 和 unlock () 。 注 意 这 个 问题 中 没有 变量 1k。 

[5] <2.11 > 以 练习 题 2. 43 中 的 代码 为 例 ， 解 释 当 两 个 处 理 器 同时 执行 这 段 临 界 区 域 时 ， 将 发 
生 什么 情况 ? 假设 每 个 处 理 器 执行 一 条 指令 正好 需要 一 个 周期 。 

假设 给 定 处 理 器 的 算术 指令 的 CPI 是 1， 取 数 / 存 数 指令 的 CPI 是 10， 分 支 指令 的 CPI 是 3。 假 
设 一 个 程序 由 5 亿 条 算术 指令 、3 亿 条 取 数 / 存 数 指令 和 1 亿 条 分 支 指令 组 成 。 

[5] <2. 19 > 假设 向 指令 集中 添加 了 新 的 、 功 能 更 强 的 算术 指令 。 通 过 使 用 这 些 功 能 更 强大 的 算 
术 指令 平均 可 以 减少 程序 执行 所 需要 的 25% 的 算术 指令 ， 而 时 钟 周 期 的 开销 增长 了 10% 。 请 问 
这 是 好 的 设计 选择 吗 ? 为 什么 ? 

[5] <2. 19 > 假设 我 们 找到 一 种 可 以 使 算术 指令 性 能 达到 原来 两 倍 的 方法 。 请 问 我 们 机 器 的 整体 
加 速 是 多 少 ? 假设 我 们 找到 一 种 可 以 使 算术 指令 性 能 达到 原来 10 倍 的 方法 ， 那 么 机 器 的 性 能 整 
体 加 速 又 是 多 少 ? 

假设 一 给 定 程 序 共 执行 了 70% 的 算术 指令 、10% 的 取 数 / 存 数 指令 和 20% 的 分 支 指令 。 

[5] <2. 19 > 假设 执行 一 条 算术 指令 、 取 数 / 存 数 指令 和 分 支 指令 分 别 需要 2 个 周期 、6 个 周期 
和 3 个 周期 ， 求 平均 CPI。 

[5] <2. 19 > 在 取 数 / 存 数 指令 和 分 支 指令 执行 时 间 不 变 的 情况 下 ， 如 果 要 使 性 能 提升 23% ， 则 
算术 运算 指令 的 平均 执行 时 间 应 该 为 多 少 ? 

[5] <2. 19 > 在 取 数 / 存 数 指令 和 分 支 指令 执行 时 间 不 变 的 情况 下 ， 如 果 要 使 性 能 提升 50% ， 则 
算术 运算 指令 的 平均 执行 时 间 应 该 为 多 少 ? 


邯 ] 小 测验 答案 


2.2 
2.3 
2.4 
2.5 
2.6 


2.7 
2.8 
2.9 
2. 10 
2.11 
2.12 


MIPS, C, Java 

2. 非常 慢 

入 = 机 

4. sub $t2, $t0， $t1 

都 可 以 。 将 “逻辑 与 ”和 全 “1” 的 掩 码 一 起 使 用 会 导致 除了 想 要 的 区 域 之 外 ， 都 变 成 0。 正 确 
的 左 移 位 操作 将 左边 的 位 数 都 移 走 。 合 适 的 右 移 将 一 个 字 最 右边 的 区 域 都 移 走 ,将 0 留 在 字 中 。 
注意 到 “逻辑 与 ”操作 会 保留 原始 的 值 ， 移 位 操作 对 将 需要 的 区 域 移 动 到 字 的 最 右边 。 

IL 全 对 , IL 1。 

两 个 都 正确 。 

1 和 和 2 亚 35 

L 4. + -128K, II 6. 一 个 256M 的 块 , IIL 4. sl11。 

两 个 都 正确 。 

4. 与 机 器 无 关 。 
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计算 机 的 算术 运算 








处 理 器 存储 器 


计算 机 的 5 个 经 典 部 件 
数值 的 精确 度 是 科学 的 灵魂 。 
Sir D arcy Wentworth Thompson, 《On Growth and Form) , 1917 





3.1 引言 


计算 机 中 的 字 由 位 组 成 。 因 此 ， 字 可 以 用 二 进 制 数 来 表示 。 第 2 章 里 提 到 整数 可 以 表示 成 
十 进 制 或 者 二 进 制 形式 ,但 是 其 他 常用 的 数据 如 何 表 示 ? 例如 : 

。 小 数 和 其 他 实数 如 何 表 示 ? 

。 当 一 个 操作 生成 了 一 个 无 法 表示 的 大 数 时 如 何 处 理 ? 

。 上 述 问题 隐 含 着 一 个 秘密 : 怎样 用 硬件 真正 地 做 乘法 和 除法 ? 

本 章 的 目的 就 是 要 揭示 这 些 秘密 ， 包 括 实数 的 表示 方法 、 算 术 的 算法 、 实 现 这 些 算法 的 硬件 ， 
以 及 如 何在 指令 集中 表示 有 关 的 内 容 。 有 了 这 些 知 识 后 ， 你 就 能 解释 在 使 用 计算 机 的 过 程 中 遇 到 的 
各 种 不 明白 的 事情 了 。 另 外 ,我们 还 将 介绍 如 何 使 用 该 技术 加 速算 术 运 算 密 集 型 程序 的 运行 。 


3.2 加 法 和 减法 
减法 : 加 法 的 微妙 朋友 。 





No. 10, Top Ten Courses for Athletes at a Football Factory, 
David Letterman 等 , 《Bookof Top Ten Lists) , 1990 
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加 法 是 计算 机 中 必 备 的 操作 。 数 据 从 右 到 左 逐 位 相 加 ， 同 时 进位 也 相应 地 向 左 传播 ， 就 如 
手动 计算 一 样 。 减 法 也 可 采用 加 法 实现 : 减 数 在 简单 的 取 反 之 后 再 进行 加 法 操作 。 


图 例题。 二进制 加 法 和 减法 
在 二 进 制 下 ， 首 先 计算 7,, 加 上 6,。， 然 后 计算 7i 减 去 61。 


0000 0000 0000 0000 0000 0000 0000 0111， = 71o 

+ 0000 0000 0000 0000 0000 0000 0000 0110。 = 6in 

- 0000 0000 0000 0000 0000 0000 0000 1101。 = 1310 

只 有 右边 4 位 发 生变 化 。 图 3-1 给 出 了 和 位 与 进位 。 其 中 ， 进 位 放 在 括号 里 ， 箭 头 标记 了 
进位 的 方向 。 








… (0) 0 (0)0 (0) 1 (1 (0 (0) 1 


图 3-1 二 进 制 加 法 ， 显 示 了 从 右 到 左 的 进位 。 最 右边 的 位 将 1 和 0 相 加 ， 得 到 该 位 的 和 为 1， 该 位 的 进 
位 为 0。 因 此 ， 右 边 第 二 位 数 的 操作 是 0 + 1 + 1。 该 操作 的 和 为 0， 进 位 为 1。 第 三 位 是 1+1+1 


176 的 和 ， 得 到 的 进位 为 1， 和 为 1。 第 四 位 是 1+0+0， 和 为 1， 无 进位 
178 | 车 ] 答案 
7, 减 去 6 可 以 直接 操作 : 


0000 0000 0000 0000 0000 0000 0000 0111> = 7ao 
= 0000 0000 0000 0000 0000 0000 0000 0110。 = 610 
0000 0000 0000 0000 0000 0000 0000 0001。 = lio 


或 者 通过 加 上 -6 的 二 进 制 补 码 来 实现 : 
0000 0000 0000 0000 0000 0000 0000 0111> = 7ao 
lh T3111 Tl 1 1 1 二 OO ='—6i6 
入 0000 0000 0000 0000 0000 0000 0000 0001> = lio OO 


硬件 规模 总 是 有 一 定 限制 的 ， 如 字 宽 只 有 32 位 。 当 运算 结果 超过 这 个 限制 时 ， 就 会 发 生 
溢出 。 加 法 在 什么 情况 下 会 溢出 呢 ? 当 相 加 的 两 个 源 操作 数 符 号 相 异 时 ， 不 会 发 生 溢 出 ， 原 因 
是 和 必然 不 会 大 于 其 中 一 个 操作 数 。 如 - 10 +4 = -6。 因 为 源 操作 数 可 以 用 32 位 的 字 表 示 ， 
而 “和 ”不 会 大 于 其 中 任何 一 个 源 操作 数 ， 所 以 和 也 可 以 用 32 位 来 表示 。 因 此 ， 当 正 数 和 负 
数 相 加 时 不 会 发 生 溢出 。 

在 做 减法 时 也 会 有 类 似 的 情况 ， 只 不 过 采用 的 规则 相反 : 当 源 操作 数 的 符号 相同 时 ， 不 
会 发 生 溢出 。 我 们 知道 , c-a=c+(-a)， 这 是 因为 减法 是 把 第 二 个 源 操 作 数 变相 反 符 号 
然后 相 加 ， 所 以 当 两 个 同 符号 的 数 作 减法 时 ， 实 际 上 是 把 两 个 符号 相 异 的 数 相 加 ， 也 不 会 
发 生 溢出 。 

知道 溢出 在 加 减法 中 何 时 不 会 发 生 固然 重要 ， 但 如 何 检测 它 何 时 发 生 ? 很 明显 ， 加 或 者 减 
两 个 32 位 的 数 可 能 产生 需要 用 33 位 来 表示 的 结果 。 

如 果 缺 少 了 第 33 位 ， 则 溢出 发 生 时 ， 符 号 位 就 可 能 被 数值 位 占用 而 产生 错误 。 因 此 ， 当 
两 个 正 数 相 加 但 结果 为 负 时 ， 就 说 明 发 生 了 溢出 ， 反 之 亦 然 。 这 个 问题 的 和 表示 计算 过 程 中 发 
生 了 向 符号 位 的 进位 操作 。 

在 做 减法 时 ， 如 果 用 一 个 正 数 减 去 一 个 负数 得 到 一 个 负 的 结果 ， 或 者 用 一 个 负数 减 去 一 个 
正 数 然后 得 到 一 个 正 的 结果 ， 则 发 生 了 溢出 。 这 也 意味 着 借 位 占用 了 符号 位 。 图 3-2 给 出 了 发 

生 溢出 的 条 件 。 





一 >0 =0 | < | 
A+B <0 <0 三 0 
i 
| 48 | <0 | >0 =0 





图 3-2 加 减法 的 溢出 条 件 


上 面 介绍 了 如 何 检测 计算 机 中 的 二 进 制 补 码 操作 的 溢出 ， 但 无 符号 整数 的 溢出 情况 是 如 何 
的 呢 ? 由 于 无 符号 数 通常 用 于 表示 内 存 地 址 ， 这 种 情况 下 的 溢出 可 以 忽略 。 

因此 ， 计 算 机 设计 者 必须 提供 一 种 方法 ， 能 够 在 某 些 情况 下 忽略 溢出 的 发 生 ， 而 在 另 一 些 
情况 下 则 能 进行 溢出 的 检测 。MIPS 采用 两 种 类 型 的 算术 指令 来 解决 这 个 问题 : 

e。 加 法 (add) 、 立 即 数 加 法 (addi) 和 减法 (sub) ， 这 三 条 指令 在 溢出 时 产生 异常 。 

。 无 符号 加 法 (adqdqu) 、 立 即 数 无 符号 加 法 (addiu) 和 无 符号 减法 (subu) ， 这 三 条 

指令 在 发 生 溢出 时 不 会 产生 异常 。 

因为 C 语言 忽略 溢出 ， 所 以 MIPS C 编译 器 总 是 采用 无 符号 的 算术 指令 addu、addiu 和 
subu， 而 不 必 考 虑 变量 的 类 型 。 但 是 MIPS Fortran 编译 器 会 根据 操作 数 的 类 型 来 选择 相应 的 算 
术 指 令 。 

附录 B 描述 了 做 加 减法 的 算术 逻辑 单元 (arithmetic logic unit，ALU) 的 硬件 实现 。 


算术 丈 辑 单元 (ALU) : 用 于 执行 加 法 、 减 法 ， 通 常 也 包括 如 逻辑 与 、 逻 辑 或 等 逻辑 操作 
异常 : 也 叫 中 断 ， 一 种 打 断 正常 程序 执行 过 程 的 事件 ， 用 于 溢出 检测 。 
中 断 : 来 自 处 理 器 外 部 的 异常 。( 在 某 些 体系 结构 中 所 有 的 异常 都 称 为 中 断 。) 


四 | 精 解 对 于 addiu 的 一 个 常见 困惑 是 它 的 名 字 和 对 其 立即 数字 段 做 什么 操作 。u 代表 无 
符号 数 ， 这 意味 着 加 法 操作 不 会 产生 溢出 异常 。 然 而 ， 与 addi、slti 和 sltiu 指令 类 
似 ，16 位 立即 数字 段 要 符号 扩展 为 32 位 。 因 此 ， 即 使 操作 是 “无 符号 ”的 ， 立 即 数字 段 
也 是 有 符号 的 。 


虽 硬件 /软件 接口 ”计算 机 设计 者 必须 考虑 如 何 处 理 算术 溢出 。 但 是 一 些 编程 语言 (如 C 和 
Java) 会 忽略 整数 溢出 ， 而 Ada 和 Fortran 语言 则 需要 通知 程序 溢出 。 因 此 程序 员 或 者 是 编 
程 环境 必须 决定 在 洲 出 发 生 时 如 何 处 理 。 

MIPS 检测 到 溢出 时 会 产生 异常 (exception) ， 在 许多 计算 机 系统 中 也 叫 作 中 断 (in- 
terrupt) 。 从 本 质 上 来 说 ， 异 常 或 中 断 是 一 种 打 断 正常 过 程 的 系统 调用 。 产 生 溢出 的 指 
令 地 址 保存 在 一 个 寄存 器 中 ， 而 后 计算 机 会 跳 到 一 个 预先 设 定好 的 地 址 去 执行 相应 的 
异常 处 理 程序 。 保 存 异 常 地 址 的 目的 是 为 了 在 某 些 条 件 下 能 够 在 异常 处 理 程序 执行 完 
后 返回 原 程 序 继续 执行 。(4.9 节 给 出 了 有 关 异 常 的 更 多 细节 ; 第 5 章 和 第 6 章 中 描述 
了 异常 和 中 断 发 生 的 其 他 条 件 。) 

MIPS 使 用 命名 为 异常 程序 计数 器 (Exception Program Counter，EPC) 的 寄存 器 来 保存 
导致 异常 的 指令 地 址 。 指 令 mfc0 (move from system control) 用 来 将 EPC 存 入 一 个 通用 寄 
存 器 ， 从 而 使 MIPS 软件 可 以 通过 寄存 器 跳 转 指令 返回 到 导致 异常 的 指令 那里 。 


0 


0 0 


小 结 


本 节 主 要 指出 ， 无 论 采 用 哪 种 数 的 表示 方法 ， 具 有 有 限 字 长 的 计算 机 在 进行 算术 操作 时 都 
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可 能 发 生 溢出 。 无 符号 数 的 溢出 是 容易 检测 的 ， 但 无 符号 数 通常 用 于 地 址 计算 ， 因 为 程序 通常 
并 不 需要 检测 地 址 计算 的 溢出 ， 通 常情 况 是 使 用 自然 数 ， 所 以 这 些 溢出 往往 被 忽略 。 有 符号 数 
的 溢出 检测 比较 麻烦 ,但 是 有 些 软件 系统 需要 检测 溢出 ， 所 以 今天 所 有 的 计算 机 都 支持 溢出 


检测 。 


加 小 测验 

某 些 程序 语言 支持 字 节 或 者 半 字 的 二 进 制 补 码 的 整数 算术 ， 而 MIPS 只 有 整 字 的 整数 算数 
操作 。 回 顾 一 下 第 2 章 的 内 容 ，MIPS 中 也 有 字 节 和 半 字 的 数据 传送 指令 。 那 么 将 会 使 用 哪些 
MIPS 指令 ? 

1. 取 数 使 用 lbu、lhu; 算术 操作 采用 add、subp、mult、div; 存 数 采用 sb 、sh。 

2. 取 数 使 用 lb 、1Lh; 算术 操作 采用 add、sub、mult、div; 存 数 采 用 sb 、sh。 

3. 取 数 使 用 lb 、1h; 算术 操作 采用 add、sub、mult、div; 采用 AND 来 屏蔽 每 次 运算 

的 结果 到 8 位 或 者 16 位 ; 存 数 采 用 sb、sh。 


著 ] 精 解 饱和 (saturating) 操作 是 通用 微 处 理 器 中 一 个 不 常 出 现 的 特性 。 饱 和 意味 着 当 计 算 
结果 溢出 时 ， 结 果 被 设置 为 最 大 的 正 数 或 者 最 小 的 负数 ， 而 不 像 二 进 制 补 码 运算 那样 采用 
取 模 操 作 来 获得 结果 。 人 饱和 操作 一 般 更 适合 多 媒体 操作 。 例 如 ， 当 不 断 旋转 收音 机 音量 的 
旋钮 时 ， 起 初 声音 逐渐 增 大 ， 但 如 果 大 到 一 定 值 后 声音 突然 变 小 ， 那 么 这 样 的 收音 机 设计 是 
不 合理 的 。 然 而 ， 对 一 台 有 饱和 操作 的 收音 机 ， 当 向 最 大 值 方向 旋转 音量 旋钮 到 一 定 程度 
后 ， 即 使 再 旋转 ， 音 量 也 只 会 停 在 最 大 值 上 。 标 准 指令 集 上 媒体 扩展 通常 提供 人 和 算法 。 

邯 ] 精 解 MIPS 在 溢出 时 会 产生 异常 ， 但 和 其 他 许多 计算 机 不 同 ， 它 没有 测试 溢出 的 条 件 分 
支 。 一 个 MIPS 指令 序列 可 以 发 现 溢出 。 对 于 有 符号 加 法 ， 这 个 序列 如 下 ( 见 2.6 节 描 述 
xor 指令 的 精 解 ) : 


addu $t0，$t1，$t2 # $t0 = sum, but don’t trap 
xor $t3, $tl, $t2 # Check if signs differ 
slt $t3, $t3, $zero # $t3 = 1 if signs differ 
bne $t3, $zero, No_overflow # $tl, $t2 signs =, 

# so no overflow 
xor $t3, $t0, $tl # signs =; sign of sum match too? 

# $t3 negative if sum sign different 

slt $t3, $t3, $zero # $t3 = 1 if sum sign different 
bne $t3, $zero, Overflow # All 3 signs *; goto overflow 


对 于 无 符号 加 法 ( $t0 = $tl + $t2)， 测 试 则 为 : 
addu $t0, $tl, $t2 # $t0 = sum 
nor $t3, $tl, $zero # $t3 = NOT $tl 
# (2’s comp ~ 1: 232 -= $t1 - 1) 
Stu $t3. $t35 $t2 # ‘(2% = $t1 = 1) < $t2 
# 沪 23 - 1 < $tl + $t2 
bne $t3,$zero,Overflow # if(23-1<$tl+$t2) goto overflow 


团 |] 精 解 ”在 前 文中 我 们 说 过 ， 可 以 通过 mfc0 指令 将 EPC 内 容 复 制 到 一 个 寄存 器 ， 然 后 通过 
跳 转 寄存 器 返回 到 被 中 断 的 代码 。 这 样 做 会 导致 一 个 有 趣 的 问题 : 既然 必须 首先 使 用 跳 转 
寄存 器 传输 EPC 到 一 个 寄存 器 ， 那 么 跳 转 寄存 器 该 如 何 返回 到 被 中 断 的 位 置 ， 并 恢复 所 
有 寄存 器 的 原 值 呢 ? 如 果 先 恢复 所 有 寄存 器 的 原 值 ， 则 来 自 EPC 的 返回 地 址 就 会 被 破坏 。 
如 果 在 恢复 所 有 寄存 器 的 原 值 时 保留 那个 返回 地 址 的 寄存 器 不 变 ， 这 样 可 以 进行 正确 跳 
转 ， 但 是 这 也 意味 着 在 程序 执行 的 任何 时 刻 ， 异 常会 导致 一 个 寄存 器 的 值 无 法 被 恢复 。 两 
者 都 是 不 可 行 的 。 
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为 了 将 硬件 设计 从 这 一 困境 中 解救 出 来 ，MIPS 允许 程序 员 将 寄存 器 $k0 和 $kl 预 留 
给 操作 系统 。 这 些 寄存 器 在 异常 时 不 会 恢复 。 仅 仅 当 MIPS 编译 器 避免 使 用 $at 寄存 器 
时 ， 汇 编程 序 可 以 使 用 它 作为 临时 寄存 器 ( 见 2.10 节 的 硬件 /软件 接口 ) ， 编 译 器 也 可 以 
避免 使 用 寄存 器 $k0 和 $kl ， 从 而 使 它们 空 出 来 给 操作 系统 。 异 常 处 理 程序 将 返回 地 址 
放 在 其 中 的 一 个 寄存 器 中 ， 然 后 利用 跳 转 寄存 器 返回 指令 地 址 。 

图 1 精 解 ”确定 进位 到 达 高 位 的 速度 变 快 ， 加 法 的 速度 也 随 之 加 快 。 有 许多 方案 可 以 用 来 加 速 
这 个 进位 ， 最 坏 情 况 下 的 进位 时 间 是 加 法 器 位 长 的 log, 的 函数 。 预 期 信号 传输 更 快 是 因为 
它们 经 过 了 更 少 的 门 电 路 序列 ， 而 加 速 进位 需要 更 多 门 电 路 ， 最 流行 的 结构 是 超前 进位 
(carry lookahead) 加 法 器 ， 见 附录 B 的 B.6 节 。 


3.3 乘法 


乘法 兮 人 司 史 ， 除 法 更 是 ; 比例 运算 困扰 看 我 ,做 陈 习 令 我 发 疫 。 
一 一 侠 名 ,《 Efizabethan manuscript》，1570 


现在 我 们 已 经 完成 了 对 加 法 、 减 法 的 解释 ， 本 节 开始 分 析 更 复杂 的 乘法 操作 。 
首先 ， 通 过 用 普通 写法 表示 的 十 进 制 数 乘法 来 回忆 一 下 乘法 的 步 又 和 操作 数 的 名 称 。 为 简 
单 起 见 ， 我 们 只 用 十 进 制 数 中 的 0 和 1 来 作为 例子 ， 计 算 1000 乘 以 1001iu: 


设 乘 数 1000i。 
乘 数 x 1001i。 
1000 
0000 
0000 
1000 
积 1001000，。 


第 一 个 源 操作 数 称 为 被 乘 数 (multiplicand) ， 第 二 个 源 操作 数 称 为 乘 数 〈multiplier) ， 最 终 
的 结果 称 为 积 ( product) 。 你 会 回忆 起 在 学 校 学 过 的 乘法 规则 : 每 次 从 右 到 左 选取 乘 数 的 一 位 ， 
乘 以 被 乘 数 ， 然 后 相对 上 一 个 中 间 积 ， 将 当前 积 左 移 一 位 。 

可 以 观察 到 ， 积 的 位 数 远 远大 于 被 乘 数 和 乘 数 。 事 实 上 ， 如 果 我 们 忽略 符号 位 ， 若 被 乘 数 
为 n 位 ， 乘 数 为 m 位 ， 则 积 的 位 数 为 n+m。 即 需要 n+m 位 来 表示 所 有 可 能 的 积 。 因 此 ， 像 加 
法 一 样 ， 乘 法 也 需要 处 理 溢 出 ， 因 为 我 们 经 常 需要 两 个 32 位 长 的 数 相 乘 产生 一 个 32 位 长 
的 积 。 

在 这 个 例子 中 ,我 们 只 使 用 了 十 进 制 中 的 0 和 1。 因 为 只 有 两 个 选择 ， 所 以 每 一 步 的 乘法 
都 很 简单 

1) 当 乘 数位 为 1 时 ， 只 需要 将 被 乘 数 (1 x 被 乘 数 ) 复制 到 合适 的 位 置 。 

2) 当 乘 数位 为 0 时 ,将 0 (0 x 被 乘 数 ) 放置 到 合适 的 位 置 。 

虽然 上 面 十 进 制 的 例子 是 限制 使 用 了 0 和 1, 但 二 进 制 数 的 乘法 只 能 使 用 0 和 1， 因此 也 
只 有 这 两 种 选择 。 

分 析 了 乘法 的 基本 原则 之 后 ， 一 般 来 讲 下 一 步 就 会 马上 开始 介绍 乘法 硬件 及 其 优化 。 但 为 
了 更 好 地 理解 这 一 问题 ， 我 们 打破 这 一 传统 ， 先 通过 倍数 的 生成 来 展示 乘法 硬件 和 算法 的 进化 
过 程 。 首 先 ， 我 们 假设 只 使 用 正 数 为 源 操作 数 。 


3. 3. 1 顺序 的 乘法 算法 和 硬件 
该 设计 模拟 我 们 在 小 学 学 过 的 算法 。 图 3-3 给 出 了 硬件 结构 。 我 们 画 出 了 硬件 ， 使 得 数据 
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流 从 项 至 下 ,很 像 我 们 用 纸 和 笔 计算 的 方法 。 





图 3-3 ”第 一 版 乘法 器 硬件 结构 。 被 乘 数 寄存 器 、ALU 和 积 寄 存 器 都 是 64 位 长 ， 而 乘 数 寄存 器 为 32 位 
长 。( 附 录 B 对 ALU 进行 了 描述 。) 32 位 的 被 乘 数 在 开始 时 放置 在 被 乘 数 寄存 器 的 右 半 部 分 ， 
然后 每 次 左 移 一 位 。 乘 数 则 每 次 向 相反 的 方向 移动 。 算 法 开始 时 ， 积 被 初始 化 为 0。 控制 逻辑 
决定 何 时 对 被 乘 数 和 乘 数 寄存 器 进行 移 位 ， 以 及 何 时 将 新 值 写 人 积 寄存 器 


假设 乘 数 放 置 在 32 位 的 乘 数 寄存 器 中 ，64 位 的 积 寄 存 器 被 初始 化 为 0。 从 采用 纸 和 笔 计 
算 的 方法 中 ,我 们 可 以 清楚 地 看 到 被 乘 数 在 每 步 需 要 左 移 一 位 ， 因 为 它 需 要 与 前 面 的 中 间 结 果 
相 加 。 在 经 过 32 步 后 ，32 位 长 的 被 乘 数 了 
将 要 左 移 32 位 。 因 此 ， 我 们 还 需要 一 个 
64 位 的 被 乘 数 寄存 器 ， 且 在 初始 化 时 32 
位 的 被 乘 数 放 在 右 半 部 分 ， 左 半 部 分 清 
0。 然 后 ， 每 执行 一 步 ， 这 个 寄存 器 中 的 
值 就 左 移 一 位 ， 将 被 乘 数 与 64 位 积 寄存 
器 中 的 中 间 结 果 对 齐 并 累加 到 中 间 结 果 。 

图 3-4 给 出 了 对 于 操作 数 的 每 一 位 的 三 
个 基本 执行 步 又。 乘 数 的 最 低位 〈 乘 数 的 第 
0 位 ) 决定 了 被 乘 数 是 否 被 加 到 积 寄存 器 
上 。 第 二 步 中 的 左 移 起 着 将 被 乘 数 左 移 的 作 
用 ， 就 如 同 用 纸 和 笔 做 乘法 一 样 。 第 三 步 中 
的 右 移 给 出 了 下 一 个 迭代 中 要 用 的 乘 数位 。 
这 三 个 步骤 要 重复 执行 32 次 来 获得 积 。 如 
果 每 步 需 要 一 个 时 钟 周 期 ， 这 个 算法 将 需要 
大 概 100 个 时 钟 周期 来 完成 两 个 32 位 的 数 相 
乘 。 像 乘法 这 样 的 算术 操作 的 相对 重要 性 因 
程序 而 异 ， 一 般 加 法 和 减法 出 现 的 次 数 要 比 
乘法 频繁 5 ~ 100 倍 。 因 此 ， 在 许多 应 用 程序 
中 ， 多 步 乘法 不 会 显著 影响 性 能 。 但 Amdahl RE 
定律 ( 见 1.10 节 ) 告诉 我 们 ， 如 果 一 个 慢 图 3-4 第 一 种 乘法 算法 。 其 硬件 结构 见 图 3-3。 如 果 乘 


A 话 ， 也 会 数 的 最 低 有 效 位 为 1， 则 将 被 乘 数 加 在 积 上 ， 
ee A 否则 ， 进 入 下 一 步 。 在 下 两 步 中 进行 被 乘 数 的 


左 移 和 乘 数 的 右 移 。 这 三 个 步 又 需要 重复 32 次 
这 个 算法 和 硬件 结构 可 以 很 容易 改进 









St 
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成 每 一 步 只 需要 一 个 时 钟 周 期 。 这 些 操作 可 以 并 行 化 来 加 速 执行 : 当 乘 数 位 为 1 时 ， 将 乘 数 和 
被 乘 数 进行 移 位 ， 同 时 将 被 乘 数 和 积 相 加 。 这 时 需要 保证 硬件 测试 的 是 乘 数 最 右边 的 位 ， 而 且 
得 到 的 是 被 乘 数 移 位 前 的 值 。 注 意 到 加 法 器 和 寄存 器 中 有 未 使 用 的 部 分 后 ， 可 以 通过 将 加 法 器 
和 寄存 器 的 位 长 减 半 来 进一步 优化 这 个 硬件 结构 。 如 图 3-5 所 示 为 修正 后 的 硬件 。 


图 3-5 乘法 器 硬件 的 改进 版 。 与 图 
3-3 中 的 第 一 版 硬件 结构 相 
比 , 被 乘 数 寄存 器 、ALU、 
乘 数 寄存 器 都 是 32 位 长 ， 只 
有 积 寄存 器 是 64 位 长 。 现 在 
将 积 进行 右 移 ， 单 独 的 乘 数 
寄存 器 也 撤销 了 。 乘 数 放 在 
积 寄存 器 的 右 半 部 分 (乘法 
寄存 器 实际 上 应 该 是 65 位 ， 
以 保存 加 法 器 的 进位 ， 但 这 
里 给 出 的 是 64 位 ， 以 突出 从 
图 3-3 的 演变 。) 


邯 ) 硬件 /软件 接口 ” 当 乘 数 为 常数 时 ， 乘 法 也 可 以 用 移 位 来 蔡 代 。 一 些 编译 器 将 有 短 常数 
的 乘法 蔡 换 为 一 系列 的 移 位 和 加 法 。 因 为 左 移 一 位 就 是 将 一 个 数 放 大 两 倍 ， 左 移 和 乘 
以 2 为 底 的 指数 有 着 等 同 的 效果 。 正 如 第 2 章 所 提 到 的 ， 几 乎 每 个 编译 器 都 将 以 2 为 底 
的 指数 乘法 替换 为 移 位 来 进行 优化 。 





邯 | 例题 . 乘法 算法 

为 了 节省 空间 ， 使 用 的 是 4 位 长 的 数 ， 计 算 2,。x3,。， 或 0010, x0011, 的 积 。 
邯 ) 答案 

图 3-6 给 出 了 按 图 3-4 中 标 出 的 每 一 步 执行 后 各 个 寄存 器 的 值 ， 最 终结 果 为 0000 0110,， 即 6。。 
加 粗 数据 表示 每 步 中 寄存 器 值 的 变化 。 带 圈 的 位 用 于 决定 下 一 步 的 操作 。 











初始 值 0000 0010 





0000 0010 
0000 0110 


0000 0110 
0000 0110 


图 3-6 使 用 图 3-4 中 算法 的 乘法 例子 。 圆 圈 圈 起 来 的 是 下 一 步 需 要 检测 的 位 OD 
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3. 3.2 有 符号 乘法 


到 目前 为 止 ， 我 们 处 理 的 对 象 都 是 正 数 。 对 于 理解 如 何 处 理 有 符号 乘法 ， 最 简单 的 方法 是 
首先 将 被 乘 数 和 乘 数 转 化 为 正 数 ， 并 记 住 原来 的 符号 位 。 这 样 ， 就 可 用 上 述 最 后 的 算法 和 迭代 
31 次 ， 符 号 位 不 必 参 与 运算 。 当 符号 相 异 时 ， 积 为 负 。 

这 表明 后 面 的 算法 对 于 有 符号 数 同样 适用 ， 只 要 知道 这 里 要 使 用 32 位 数据 来 表示 通常 要 
处 理 的 无 限 数字 。 因 此 移 位 步 又 需要 对 有 符号 数 的 乘积 进行 扩展 。 当 算法 结束 时 ， 低 位 字 将 是 
32 位 乘积 。 


3. 3.3 更 快速 的 乘法 


摩尔 定律 为 我 们 提供 了 非常 充足 的 资源 ， 使 硬件 设计 者 可 以 设计 更 快速 的 乘法 器 。 我 们 可 
以 在 乘法 运算 开始 的 时 候 通过 检查 乘 数 的 32 位 ,来 判定 被 乘 数 是 否 被 加 上 。 人 快速 的 乘法 运算 
主要 的 思想 是 为 乘 数 的 每 一 位 提供 一 个 32 位 的 加 法 器 : 一 个 用 来 输入 被 乘 数 和 一 乘 数 位 相 与 
的 结果 ， 另 一 个 是 上 一 个 加 法 器 的 输出 。 

一 种 直接 的 方法 是 将 每 个 右边 的 加 法 器 的 输出 作为 左边 加 法 器 的 输入 ， 形 成 一 个 高 32 的 
加 法 器 栈 。 一 种 替换 的 方法 是 将 32 个 加 法 器 组 织 成 一 个 并 行 树 ， 如 图 3-7 所 示 。 这 样 ， 我 们 
只 需要 等 待 lg，(32) ， 即 5 次 32 位 长 加 法 的 时 间 ， 而 不 是 等 待 32 次 加 法 的 时 间 。 


乘 数 31 乘 数 30 . 乘 数 29 ' 。 乘 数 28 乘 数 3 乘 数 2 乘 数 1* 乘 数 0， 
被 乘 数 被 乘 数 ”被 乘 数 被 乘 数 被 乘 数 被 乘 数 被 乘 数 。” ”被 乘 数 





乘积 63 乘积 62 各 乘积 47..16 a 乘积 1 ”乘积 0 


图 3-7 快速 乘法 器 硬件 结构 。 这 个 结构 使 用 31 个 加 法 器 “展开 循环 ”来 实现 最 小 的 时 延 ， 而 
不 再 是 使 用 单个 32 位 的 加 法 器 31 次 


事实 上 ， 通 过 使 用 进位 保留 加 法 器 ( 见 附录 B 的 B.6 节 )， 乘法 的 计算 速度 可 以 快 于 
5 次 加 法 。 而 且 由 于 易于 应 用 流水 线 设 计 执 行 ， 这 样 的 结构 可 以 同步 支持 多 个 乘法 运算 ( 见 
第 4 章 )。 


3. 3.4 MIPS 中 的 乘法 


MIPS 提供 了 一 对 单独 的 32 位 寄存 器 来 容纳 64 位 的 积 ， 称 为 i 和 Lo。 为 了 产生 正确 的 有 
符号 积 和 无 符号 积 ，MIPS 提供 了 两 条 指令 : 乘法 (mult) 和 无 符号 乘法 (multu)。 为 了 取 
得 32 位 的 整数 积 ， 程 序 员 需 要 使 用 mf1o 指令 (move from lo) 。MIPS 汇编 器 为 乘法 生成 了 一 
条 伪 指 令 ， 它 使 用 了 三 个 通用 寄存 器 ， 用 mflo 和 mfhi 指令 将 积 送 入 指定 的 寄存 器 。 
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3. 3.5 小 结 


乘法 硬件 只 是 简单 地 移 位 和 加 法 ， 其 算法 类 似 于 采用 纸 和 笔 的 计算 方法 。 编 译 器 甚至 会 用 
移 位 指令 来 代替 乘 数 为 2 的 短 次 的 乘法 操作 。 通 过 使 用 更 多 硬件 的 方法 ， 可 以 并 行 做 加 法 操 
作 ， 从 而 提高 运算 速度 。 


团 】 硬件 /软件 接口 MIPS 乘法 指令 都 忽略 溢出 ， 所 以 要 由 软件 来 检测 是 否 因 积 过 大 而 32 位 
不 够 表示 。 对 于 multu 指令 ， 如 果 王 为 0 则 无 溢出 ; 对 于 mult 指令 ， 如果 硬 为 Lo 的 
符号 位 则 也 无 溢出 。 可 以 使 用 指令 mfhi (move from hi) 将 Hi 的 值 移入 一 个 通用 寄存 器 
来 检测 溢出 。 


3.4 除法 


Divide et impera 
拉丁 语 ， 意 为 “分 而 治之 ”， 引 自 Machiavelh 的 一 名 政治 藏 言 ，1532 
和 乘法 相反 的 操作 是 除法 ， 它 用 得 较 少 ,但 很 诡异 。 它 甚至 可 能 会 出 现 数 学 上 的 无 效 操 
作 : 除数 为 0。 
首先 通过 十 进 制 数 的 长 除 来 回忆 一 下 操作 数 的 命名 和 小 学 时 学 习 的 除法 算法 。 类 似 于 前 
面 ， 为 简单 起 见 ， 我 们 只 使 用 十 进 制 中 的 0 和 1。 这 个 例子 是 计算 1 001 010,。 除 以 10001: 
1001i。 商 
除数 10001。 11001010,。 被 除数 
000 





10 
101 
1010 
二 1000 
101。 余数 


除法 中 的 两 个 源 操作 数 ， 称 为 被 除数 (dividend) 和 除数 (divisor) ， 结 果 称 为 商 〈quo- 
tient) ， 还 有 一 个 第 二 结果 ， 称 为 余数 (remainder) 。 这 里 用 一 种 方式 来 表达 它们 之 间 的 关系 : 
被 除数 = 商 x 除 数 + 余 数 
这 里 余数 要 小 于 除数 。 在 某 些 场合 ， 程 序 使 用 除法 指令 只 是 为 了 获得 余数 ， 而 忽视 商 。 


”被 除数 : 被 除 的 数 。 

人 除数: 用 于 对 被 除数 进行 除法 的 数 。 

2 商 : 除法 的 主要 结果 ; 乘 以 除数 并 加 上 余数 产生 被 除数 的 数 。 
余数 : 除法 的 第 二 个 结果 ， 加 在 商 和 除数 的 乘积 上 产生 被 除数 的 数 。 


这 个 过 程 中 每 次 都 尝试 看 最 大 能 减 掉 多 少 ， 然 后 以 此 产生 商 。 我 们 小 心地 选择 出 只 用 0 
和 1 的 十 进 制 例子 ， 从 而 很 容易 判断 出 需要 将 多 少 倍 的 除数 从 被 除数 中 减 去 : 要 么 是 1 售 ， 
要 么 是 0 倍 。 二 进 制 数 仅 包 含 0 和 1， 所 以 二 进 制 除法 也 仅 有 这 两 种 选择 ， 从 而 简化 了 二 进 
制 除法 。 

现在 我 们 假设 被 除数 和 除数 都 为 正 ， 因 此 商 和 余数 也 都 非 负 。 除 法 的 源 操作 数 和 两 个 结果 
都 是 32 位 宽 ， 我们 暂且 忽略 符号 位 。 


3. 4. 1 除法 算法 及 其 硬件 结构 
图 3-8 给 出 了 模拟 小 学 学 过 的 除法 算法 的 硬件 结构 。 在 开始 时 ，32 位 的 商 寄存 器 设 为 0。 
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算法 每 次 的 迭代 将 除数 向 右 移 一 位 。 所 以 我 们 需要 在 开始 时 将 除数 放置 在 64 位 除数 寄存 器 的 
[189] 左 半边 ,然后 每 次 右 移 一 位 来 和 被 除数 对 齐 。 余 数 寄存 器 初始 化 为 被 除数 。 


一 一 ~ 图 3-8 第 一 种 除法 器 硬件 结 
除数 构 。 除 数 寄 存 器 、 
ALU、 余 数 寄存 器 都 
是 64 位 宽 ， 只 有 商 寄 
存 器 是 32 位 宽 。32 
位 的 除数 开始 放置 在 
除数 寄存 器 的 左 半 部 
分 ， 然 后 每 次 迭代 右 
移 一 位 。 余 数 寄存 器 
初始 化 为 被 除数 。 控 
制 逻辑 决定 何 时 对 除 
数 和 商 寄 存 器 进行 移 
位 以 及 何 时 将 新 值 写 
入 余数 寄存 器 





右 移 
64 位 


余数 






图 3-9 给 出 了 第 一 种 除法 算法 的 3 个 步骤 。 不 像 人 那样 聪明 ， 计 算 机 不 可 能 提前 知道 除数 
是 否 小 于 被 除数 。 所 以 需要 在 第 1 步 中 减 去 除数 这 与 在 小 于 时 设置 指令 中 的 比较 操作 相同 ;如 
果 结 果 为 正 ， 则 除数 小 于 等 于 被 除数 ， 所 以 我 们 取 商 为 1 (第 2a 步 )。 如 果 结果 为 负 ， 则 通过 
将 除数 加 上 余数 来 恢复 上 一 次 的 值 ， 然 后 取 商 为 0 (第 2b 步 ) 。 除 数 右 移 ， 然 后 再 次 和 迭代 。 选 
代 完 成 后 ， 余 数 和 商 存放 在 以 它们 命名 的 寄存 器 中 。 


图 3-9 第 一 种 除法 算法 ， 其 硬 
件 结构 见 图 3-8。 如 果 余 
数 为 正 ， 则 将 除数 从 被 
除数 中 减 去 ， 然 后 在 第 
2a 步 取 商 为 1。 如果 第 1 
步 之 后 余数 为 负 ， 则 意 
味 着 除数 不 能 从 被 除数 
中 减 去 ， 所 以 在 第 2b 步 
中 商 0 并 将 除数 加 到 余 
数 上 ， 即 做 第 1 步 减法 
的 逆 操 作 。 在 第 3 步 ， 
进行 最 后 的 移 位 ， 根 据 
下 一 个 迭代 的 被 除数 ， 
将 除数 适当 对 齐 。 这 些 
步骤 将 要 重复 33 次 
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邯 ) 例题 . 除法 算法 

为 了 节省 篇 幅 ， 我 们 使 用 4 位 的 数据 。 计 算 7w 除 以 2 ， 即 0000 0111; 除 以 0010,。 
本 | 答案 

图 3-10 给 出 了 每 步 中 各 个 寄存 器 的 值 ， 其 中 ， 商 为 3。， 余 数 为 1。。 注 意 到 ， 在 第 2 步 中 
检测 余数 的 正 负 只 需要 简单 地 测试 余数 寄存 器 的 符号 位 是 0 还 是 1 即 可 。 令 人 惊讶 的 是 ， 这 个 
算法 需要 n+1 步 来 获得 适当 的 商 和 余数 。 


下 
0010 0000 0000 0111 


0010 0000 D110 0111 



























1 2b: 余数 <0 二 + 除数 ， 商 左 移 ， 上 最 低位 上 0 0000 0010 0000 0000 0111 
3: 除数 右 移 0000 0001 0000 0000 0111 






1; 余数 -余数 -除数 | 0000 | ooloo | Oliom 
2 |2b: 余数 <0 + 除数 ， 商 左 移 ， 上 最 低位 上 0 
















3: 除数 有 移 0000 
1: 余数 = 余数 -除数 0000 | o000100 | OM 
2b: 余数 <0 二 + 除数 ， 商 左 移 ， 上 最 低位 上 0 0000 





























1: 余数 = 余数 -除数 0000 | oooo olo0 
2a: 余数 > 0 全 商 左 移 ， 上 最 低位 上 1 0001 0000 0100 
3: 除数 右 移 0001 0000 0010 







0 oo | om | 
1 >0 站 EE | Wi 0000010 | oo000001 | 
om | oo00 oo01 | 


图 3-10 ”除法 的 例子 , 采用 图 3-9 中 的 算法 。 图 中 图 起 来 的 位 用 于 决定 下 一 步 的 操作 


算法 和 对 应 的 硬件 结构 分 别 可 以 改进 得 更 快 、 更 便宜 。 加 速 是 通过 将 源 操作 数 和 商 移 位 与 
减法 同时 进行 。 注 意 到 寄存 器 和 加 法 器 有 未 用 的 部 分 ， 可 以 通过 将 加 法 器 和 寄存 器 的 位 长 减 半 
来 改进 硬件 结构 ， 如 图 3-11 所 示 为 改进 后 的 硬件 结构 。 









图 3-11 除法 器 的 一 种 改进 版 本 。 除 数 寄存 器 、ALU、 商 寄存 器 都 是 32 位 ， Gi 64 位 。 
同 图 3-8 相 比 ，ALU 和 除数 寄存 器 都 是 位 宽 减 半 ， 余 数 进行 左 移 。 这 个 结构 将 商 寄存 器 和 余数 
寄存 器 的 右 半 部 分 进行 了 拼接 (正如 图 3-5 中 的 那样 ， 人 于 在 同 应 访 65 位 从 而 保证 加 法 
器 的 进位 不 会 丢失 。) 0 
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3.4.2 ”有 符号 除法 


到 目前 为 止 ,我们 一 直 忽 略 有 符号 数 的 除法 。 最 简单 的 办 法 是 记 住 除数 和 被 除数 的 符号 。 
如 果 两 者 的 符号 相 异 ， 则 商 为 负 。 


国 ! 精 解 有 符号 除法 一 个 比较 麻烦 的 地 方 是 必须 设置 余数 的 符号 。 记 住 ， 下 面 的 公式 必须 
满足 : 
被 除数 = 商 x 除 数 + 余 数 
为 了 理解 如 何 设置 余数 的 符号 ， 我 们 来 看 +7io 除 以 上 2io 这 个 例子 的 各 种 情况 。 第 一 
种 情况 很 简单 : 
(+7) 二 (+2): 商 =+3， 余数 =+1 
检查 结果 : 
+7=3x2+(+1) =6+1 
如 果 我 们 改变 被 除数 的 符号 ， 商 就 会 改变 : 
(=7) 二 (+2); 商 =-=3 
重 写 基 本 公式 来 计算 余数 : 
余数 = (被 除数 - 商 x 除 数 ) = (-7) -[-3x(+2)] =(-7) -(-6) =-1 
从 而 ， 
(-7) (+2): 商 =-3, 余 数 =-1 
再 次 检查 结果 : 
-7=(-3)x2+(-1)=-6-1 
商 是 -4 且 余 数 是 +1 同样 满足 基本 公式 ， 但 不 能 取 这 个 结果 ， 其 原因 是 如 果 那 样 ， 
商 的 绝对 值 将 会 根据 被 除数 和 除数 的 符号 而 改变 ! 很 明显 ， 如 果 
一 【《 芝 二 认 - 科 (= 人 全 克 
编程 将 会 面临 更 大 的 挑战 。 保 持 被 除数 的 符号 和 余数 的 符号 相同 ， 而 不 管 除数 和 商 的 符 
号 如 何 ， 就 可 以 避免 这 种 异常 的 情况 。 
我 们 采用 相同 的 规则 计算 其 他 情况 : 
(+7) :>(-2): 商 =-3， 余 数 =+l 
(-7) =(-2): 商 =+3， 余数 = 一 
因此 ， 正 确 的 有 符号 除法 算法 在 源 操作 数 的 符号 相反 时 商 为 负 ， 同 时 使 非 零 余数 的 符 
号 和 被 除数 的 相同 。 


3. 4.3 更 快速 的 除法 


与 乘法 相同 ， 摩 尔 定律 同样 适用 于 除法 。 我 们 使 用 许多 加 法 器 来 加 速 乘法 ， 但 这 一 招 对 除 
法 却 不 管用 。 因 为 除法 算法 每 次 迭代 前 需要 知道 减法 结果 的 符号 ， 而 乘法 却 可 以 立刻 生成 32 
个 部 分 积 。 

有 一 些 技术 可 以 每 步 生成 不 仅 一 个 商 位 。 如 被 称 为 SRT 的 除法 算法 ， 通 过 查找 表 的 方法 来 
尝试 猜测 每 步 几 个 商 位 ， 其 中 查找 表 基 于 被 除数 和 余数 的 高 位 部 分 来 进行 。 它 依赖 后 面 的 步骤 
来 修正 错误 的 猜测 。 如 今 典型 值 是 4 位 。 算 法 的 关键 是 猜测 要 减 的 值 。 对 于 二 进 制 算法 ， 只 有 
一 种 选择 。 可 用 余数 的 6 位 和 除数 的 4 位 来 索引 查找 表 ， 从 而 决定 每 步 的 猜测 。 

这 个 快速 算法 的 正确 性 取决 于 查找 表 中 的 值 是 否 合适 。 在 3. 9 节 给 出 了 如 果 查 找 表 不 正确 
将 会 出 现 的 情况 。 
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3.4.4 MIPS 中 的 除法 


你 可 能 已 经 注意 到 图 3-5 和 图 3-11 中 相同 的 顺序 执行 硬件 结构 既 可 以 做 乘法 ， 又 可 以 做 除 
法 。 唯 一 需要 的 是 一 个 64 位 的 可 左右 移 位 的 寄存 器 和 一 个 能 做 加 减法 的 32 位 宽 的 ALU。 因 
此 ，MIPS 用 32 位 的 Hi 和 32 位 的 Lo 寄存 器 来 处 理 乘法 和 除法 。 

我 们 从 上 面 的 算法 中 可 能 已 经 猜 出 ， 在 除法 指令 执行 完 后 ，Hi 存放 着 余数 ，Lo 存放 着 商 。 

为 了 处 理 有 符号 整数 和 无 符号 整数 ，MIPS 采用 两 条 指令 : 除 (div) 和 无 符号 除 (di- 
vu)。MIPS 汇编 器 允许 除 指令 使 用 三 个 寄存 器 ， 且 采用 mflo 和 mfhi 指令 将 运算 结果 放 人 指 
定 的 通用 寄存 器 。 


3.4.5 人 小结 


乘法 和 除法 共用 硬件 的 方案 允许 MIPS 提供 一 对 单独 的 32 位 寄存 器 来 支持 乘法 和 除法 运 
算 ， 可 以 通过 预测 多 位 商 的 方法 来 加 速 除法 运算 ， 在 预测 错误 时 及 时 进行 恢复 。 图 3-12 汇总 
了 前 面 两 节 中 MIPS 体系 结构 的 优化 处 理 。 


MIPS 汇编 语言 


加 


a +e 三 个 操作 数 ;检测 溢出 




























减 $sl =$s2 -$s3 三 个 操作 数 ; 检 测 溢出 
加 立即 数 加 常数 ;检测 溢出 











addi $sl,$s2,100 $sl =$s2 +100 
addu $sl,$s2,$s3 $sl =$s2 +$s3 三 个 操作 数 ; 不 检测 溢出 
subu $sl1,$s2,$s3 $sl =$s2 -$s3 三 个 操作 数 ; 不 检测 溢出 


addiu $s1l,$s2,100 $sl =$s2 +100 加 常数 ;不 检测 溢出 
































mfc0 $s1,$epc 复制 异常 Pc 到 专用 寄存 器 
mult $s2,$s3 Hi ,Lo =$s2 x$s3 64 位 有 符号 积存 在 Bi ,Lo 中 
Hi ,Lo =$s2 x$s3 64 位 无 符号 积存 在 Hi ,Lo 中 












Lo =$s2/$s3 ， 
Hi =$s2 mod $s3 
Lo =$s2/$s3, 
Hi =$s2 mod $s3 








无 符号 商 和 余数 


用 来 获得 Hi 的 复 本 
mflo $sl 用 来 获得 Lo 的 复 本 


lw $sl,20($s2) $sl =Memory[ $s2 +20] 

sw $s1,20 ($s2) Memory[ $s2 +20] =$sl 

lhu $sl1,20 ($s2) $sl =Memory[ $s2 +20] 

sh $sl,20 ($s2) Memory[ $s2 +20] =$sl 

lbu $sl,20 ($s2) $sl =Memory[ $s2 +20] 

sb $sl,20($s2) Memory[ $s2 +20] =$sl | 将 一 个 字 节 从 寄存 器 中 存 到 内 存 中 
有 






















































































$sl =Memory[ $s2 +20 ] | 取 字 作为 原子 交换 的 前 半 部 


存 条 件 字 eno $52 +20] $31 ;| 存 字 作为 原子 交换 的 后 半 部 


立即 数 读 人 高 16 位 lui $sl,100 取 立 即 数 并 放 在 高 16 位 


图 3-12 MIPS 核心 体系 结构 。 为 了 节省 篇 幅 , 没 有 给 出 MIPS 体系 结构 的 存储 器 和 寄存 器 ,但 增加 了 Hi 和 
Lo 寄存 器 来 支持 乘法 和 除法 。 在 MIPS 参考 数据 卡 中 列 出 了 MIPS 机 器 语言 








$sl =100* 215 
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举例 含义 备注 
AND $s1,$s2,$s3 $s1 =$s2 & $s3 三 个 寄存 器 操作 数 ; 按 位 与 
OR $sl,$s2,$s3 $s1 =$s2 | $s3 三 个 寄存 器 操作 数 ; 按 位 或 
NOR $sl,$s2,$s3 $s1 = ~ ($s2 | $s3) 三 个 寄存 器 操作 数 ; 按 位 或 非 
与 立即 数 ANDi $sl,$s2,100 $sl =$s2 & 100 和 常数 按 位 与 
或 立即 数 ORi $sl,$s2,100 $s1 =$s2 | 100 和 常数 按 位 或 
逻辑 左 移 sl11 $sl,$s2,10 $sl =$s2 <10 根据 常数 左 移 相应 位 
逻辑 右 移 srl $sl,$s2,10 $sl =$s2 >10 根据 常数 右 移 相应 位 
相等 时 中 转 peq ssl ,8s2,25 。 |， 于 (09 852) 和 全 9 + | 相等 检测 ;和 PC 相关 的 中 转 


















if ($sl!=$s2) 跳 至 PC +4 
+100 


if ($s2 <$s3)$sl =1; 否 


不 相等 时 跳 转 bne $sl,$s2,25 不 相等 检测 ;和 PC 相关 的 跳 转 


































大 小 于 时 置 位 slt $sl,$s2,$s3 则 $s1 =0 比较 是 否 小 于 ; 补 码 形式 
lk ; A 

转 | 小 于 立即 数 时 轩 位 slti $e1,8s2,100 | 2 《100) Sl “1 人 | 比较 是 否 小 于 常数 ;形式 | 

无 符号 数 比较 小 于 时 置 位 |sltu $s1,$s2,$s3 te <$s3) $sl =1; 否 | 此 较 是 否 小 于 ,自然数 | 
te Sede da ws <100)$sl =1; 否 比较 是 否 小 于 常数 ;自然 数 

FI 2500 跳 至 10000 跳 转 到 目标 地 址 

条 SET 

入 和 至 寄存 名 所 指 的 位 跳 至 $ra Ri 

转 跳 转 并 链接 jal 2500 $ra =PC +4; 跳 至 10000 ”| 用 于 过 程 调用 





图 3-12  ( 续 ) 

苇 ] 硬件 /软件 接口 ”MIPS 处 理 器 除法 指令 忽略 溢出 ， 所 以 需要 软件 来 检测 商 是 否 溢出 。 除 了 
溢出 ， 除 法 还 可 能 产生 不 适当 的 计算 : 除数 为 0。 一 些 计算 机 会 分 辨 这 两 种 异常 事件 。 而 
同 溢出 一 样 ，MIPS 软件 必须 通过 检查 除数 来 确定 是 否 会 发 生 此 类 情况 。 


邯 ] 精 解 ”一 种 更 快 的 算法 是 在 余数 为 负 时 ， 不 需要 立即 将 除数 加 回去 。 它 只 是 在 下 一 步 简单 
地 将 被 除数 加 到 移 位 后 的 余数 上 ， 因 为 (r+d)x2-d=rx2+dx2-d=rx2+d。 这 种 
不 恢复 (nonrestoring) 除 算法 每 步 需 要 一 个 时 钟 周期 ， 将 会 在 练习 题 中 给 出 更 多 的 分 析 ; 
而 前 面 介 绍 的 算法 称 为 恢复 (restoring) 除法 。 第 三 种 算法 称 为 不 执行 (nonperforming) 除 
算法 ， 这 种 算法 在 余数 为 负 时 ， 不 保存 减法 的 结果 。 它 平均 减少 了 三 分 之 一 的 算术 操作 。 


3.5 浮 点 运算 


必 果 方向 错 了 ， 再 快 也 和 白搭 。 
一 一 半 国 谤 语 
除了 有 符号 和 无 符号 整数 ， 编 程 语言 也 支持 带 小 数 的 数字 ， 即 数学 上 的 实数 。 如 : 
3. 14159265.…,，( pi) 
2.71828…。(e) 
0. 000000001,, 即 1.01。x 10-”( 纳 秒 级 ) 
3155760000,。 即 3. 15576,。x 10”( 一 百年 的 秒 数 ) 
请 注意 ， 在 最 后 的 例子 中 ， 那 个 数 并 不 是 小 数 ， 而 是 比 32 位 的 有 符号 整数 还 要 大 的 数 。 
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这 种 表达 上 述 例子 中 后 两 个 数 的 记 数 法 称 为 科学 记 数 法 (scientific notation ) 。 一 个 采用 科学 记 
数 法 表示 的 数 ， 若 没有 前 导 零 且 小 数 点 左边 只 有 一 位 整数 ， 则 可 称 为 规格 化 (normalized) 数 。 
例如 ，1. 0,。x10™“ 就 是 规格 化 的 科学 记 数 ,但 0. 1,。x10 习 和 10.0,, x10-" 就 不 是 。 


科学 记 数 法 : 十 进 制 小 数 点 左边 只 有 一 位 整数 的 记 数 法 。 

规格 化 数 : 没有 前 导 零 的 浮 点 记 数 法 。 

正如 可 以 用 科学 记 数 法 来 表示 十 进 制 数 那样 ， 我 们 也 可 以 用 科学 记 数 法 来 表示 二 进 制 
数 ， 如 : 


Vy 0 


1.0, x27 

为 了 使 二 进 制 数 规格 化 ， 需 要 定义 一 个 基数 ， 这 个 基数 可 用 来 移 位 使 小 数 点 左边 只 保留 一 
位 非 零 数 。 只 有 基数 为 2 才 满足 要 求 。 因 为 基数 不 是 10 ， 所 以 我 们 称 这 时 的 小 数 点 为 二 进 制 小 
数 点 (binary point)。 

这 类 计算 机 算术 支持 浮 点 数 (floating point) 的 计算 ， 称 为 浮 点 数 是 因为 其 表示 的 二 进 制 
小 数 点 是 不 固定 的 ， 与 整数 相似 。C 语言 用 float 来 表示 这 类 数 。 正 如 科学 记 数 那样 ， 数 被 表示 
为 二 进 制 小 数 点 左边 只 有 一 位 非 零 数 的 形式 。 在 二 进 制 中 ， 其 格式 为 : 1. xxxxxxxxx， X 2 。 
(尽管 计算 机 对 指数 也 同 其 他 数 一 样 表示 为 以 2 为 基 的 形式 , 但 这 里 为 了 简化 记 数 ， 我 们 用 十 
进 制 来 表示 指数 。) 


人 浮 点 数 : 二 进 制 小 数 点 不 国定 的 表达 数 的 记 数 法 。 


对 实数 采用 规格 化 形式 的 标准 科学 记 数 法 有 三 个 优点 : 简化 了 浮 点 数 的 数据 交换 ; 简化 了 
浮 点 算术 算法 ; 提高 了 用 一 个 字 存储 的 数 的 精度 ， 因 为 无 用 的 前 导 零 可 能 占用 的 位 被 二 进 制 小 
数 点 右边 的 有 效 位 替代 了 。 


3.5.1 浮 点 表示 


浮 点 表示 的 设计 者 必须 在 尾数 (fraction) 位 宽 和 指数 (exponent) 位 宽 之 间 找 出 折 中 的 办 
法 ， 因 为 字 的 大 小 是 固定 的 ， 有 一 部 分 增加 一 位 ， 则 另 一 部 分 就 要 减少 一 位 。 折 中 是 在 精度 和 
表示 范围 间 进 行 权 衡 : 增加 小 数 部 分 会 增加 表示 精度 ， 而 增加 指数 部 分 会 增加 数 的 表示 范围 。 
正如 我 们 在 第 2 章 中 所 提 到 的 设计 方针 讲 的 那样 ， 好 的 设计 需要 好 的 折 中 。 


2 尾数 : 位 于 浮 点 数 的 尾数 字段 ， 其 值 在 0 和 1 之 间 。 
指数 : 位 于 浮 点 数 的 指数 字段 ， 表 示 小 数 点 的 位 置 。 


浮 点 数 通 常 是 多 个 字 的 宽度 。MIPS 中 的 浮 点 数 表示 如 下 : * 为 浮 点 数 的 符号 〈1 表示 负 
数 ) ， 指 数 域 为 8 位 宽 (包括 指数 的 符号 位 ) ， 尾 数 域 为 23 位 宽 。 这 种 表示 称 为 符号 和 数值 


(sign and magnitude) ， 因 为 符号 和 数值 的 位 置 是 相互 分 离 的 。 
| at |30| 29 [28 | 27 |26] 25 |24|23|22|21|20|19|18 17|16 15|14|13 12|11|10 9|18 7|slsl4jsjzjilo 
是 指数 尾数 














1 位 8 位 23 位 
一 般 浮 点 数 表示 为 这 样 的 形式 : 
(-1) xFx2° 
为 小 数 域 的 值 ，E 为 指数 域 的 值 。 这 些 域 之 间 具 体 的 关系 后 面 会 详细 讲解 。 (我 们 将 会 简单 
地 看 到 MIPS 所 做 的 稍 有 技巧 性 的 改变 。) 


浮 点 数 表 示 法 使 MIPS 计算 机 有 很 大 的 数值 表示 范围 ， 可 以 小 到 2. 0 x10” ， 大 到 2. 0,。 x 
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10”。 但 它 和 无 穷 还 是 不 同 的 ， 所 以 依然 有 可 能 会 因数 太 大 而 不 能 表示 。 因 此 ， 正 如 在 整数 运 
算 中 那样 ， 洪 出 中 断 在 浮 点 运算 中 也 会 发 生 。 注 意 ， 这 里 的 溢出 (上 溢 ) (overflow) 表示 指数 
太 大 而 不 能 在 指数 域 表 示 。 


仿 ”溢出 (上 溢 ) : 正 的 指数 太 大 而 导致 指数 域 放 不 下 的 情况 。 


浮 点 也 会 出 现 一 种 新 的 异常 事件 。 正 如 程序 员 想 要 知道 何 时 他 们 计算 的 数 太 大 而 不 能 表示 
那样 ， 他 们 同样 也 想 知道 一 个 非 零 的 小 数 是 否 会 太 小 而 不 能 表示 ; 任何 一 种 事件 都 会 引起 程序 
给 出 错误 答案 。 为 了 和 上 溢 区 分 开 来 ， 将 其 称 为 下 浇 (underflow)。 下 洲 发 生 的 条 件 是 负 的 指 
数 太 大 而 不 能 在 指数 域 中 表示 出 来 。 

一 种 减少 上 溢 和 下 溢 的 方法 是 采用 更 大 指数 的 格式 。 在 C 语言 中 称 为 double， 基 于 double 的 
操作 称 为 双 精 度 (double precision) 浮 点 算术 ; 单 精度 (single precision) 浮 点 就 是 前 面 的 格式 。 


忆 下 溢 : 负 的 指数 太 大 而 导致 指数 域 放 不 下 的 情况 。 
双 精 度 : 浮 点 数 由 两 个 32 位 的 字 表 示 。 
单 精度 : 浮 点 数 由 一 个 32 位 的 字 表 示 。 


3 0 


双 精 度 浮 点 数 占用 了 两 个 MIPS 字 ， 如 下 所 示 。 其 中 ，s 表示 符号 ， 指 数 域 为 11 位， 尾数 
域 为 52 位 。 


9 |26|2s|24|23|22[21|20l19| 8] 7)relsslrsl1sl2lr lol oe | 7 elslalslz2llo 
指数 | 





尾数 
1 位 11 位 20 位 
32 位 


MIPS 双 精 度 的 表示 范围 从 2. 0。x 10 ”到 2.0 x10”。 尽 管 双 精度 增加 了 指数 范围 ， 它 
主要 的 优势 还 是 通过 提供 更 多 的 有 效 位 数 来 实现 更 大 的 表示 精度 。 

这 些 格 式 已 经 超出 了 MIPS 体系 结构 。 实 际 上 它们 是 正 EE 754 浮 点 标准 的 一 部 分 ， 从 1980 
年 以 来 的 每 台 计 算 机 都 遵循 该 标准 。 该 标准 既 简 化 了 浮 点 程序 的 接口 ， 又 提高 了 计算 机 算术 的 
质量 。 

为 了 将 更 多 的 数据 位 打包 到 有 效 位 数 (significand) 部 分 ，IEEE 754 甚至 隐藏 了 规格 化 二 
进 制 数 的 前 导 位 1。 因 此 ， 在 单 精度 下 ， 数 有 24 位 宽 〈 隐 含 的 1 和 23 位 尾数 ) ， 在 双 精 度 下 为 
53 位 宽 (1 +52) 。 为 了 精确 ， 我 们 用 术语 有 效 位 数 来 表示 24 位 或 者 53 位 的 数 ， 就 是 隐 含 1 加 
尾数 。° 因 为 0 没有 前 导 位 1， 它 的 指数 保留 为 0， 所 以 硬件 就 不 会 将 前 导 位 1 加 到 尾数 上 面 。 

因此 00…00, 代 表 0; 其 他 数 的 表示 依然 采用 前 面 的 形式 ， 就 是 加 上 了 隐 含 1: 

(ET 六) 这 2 
其 中 , F 表示 的 是 0 和 1 之 间 的 数 ,，E 表示 的 是 指数 域 中 的 值 。 如 果 我 们 从 左 到 右 标记 小 数 为 
s] ，s2 ，53 ，…， 则 数 的 值 为 
(=1) [1 和 ( 2 二 (2X27 7) 年 (3X2 ) 4 (42) 二] 交 2 

图 3-13 给 出 了 IEEE 754 浮 点 数 的 编码 。IEEE 754 标准 的 其 他 特点 是 用 特殊 的 符号 来 表示 
异常 事件 。 例 如 ， 软 件 可 以 将 结果 设置 成 某 种 格式 来 表示 + om 或 者 - om ， 以 替代 除 0 中 断 ; 最 
大 的 指数 保留 下 来 标识 那些 特殊 符号 。 当 程序 员 打 印 结果 时 ， 程序 会 打印 出 一 个 无 穷 符 号 。 
(对 于 有 数学 训练 的 人 ,无穷 的 目的 是 形成 实数 的 拓扑 闭 集 。) 





加 由 于 “有 效 位 ”和 “尾数 ” 相 比 ,“ 有 效 位 ”多 了 一 位 “1”， 而 在 浮 点 运算 中 ， 常 用 “尾数 ”的 术语 ， 因 
此 在 后 面 多 处 “尾数 ” 即 表示 “有 效 位 ” 。 一 一 译 者 注 


| 指数 | 必 数 | 指 获 | 懂 | | 
| 


RS 
| 和 | 0 | 和 | :AU | 
[li 上 To。 Te 交 | 


图 3-13 IEEE 754 浮 点 数 的 编码 。 用 一 个 单独 的 符号 位 来 决定 正 负 。 在 3.5 节 的 精 解 中 描述 了 
非 规 格 化 数 。 这 个 信息 也 可 以 在 MIPS 参考 数据 卡 的 第 4 列 中 找到 


IEEE 754 甚至 给 出 了 一 种 表示 无 效 操作 结果 (如 0/0 或 者 无 穷 减 无 穷 ) 的 符号 一 一 NaN 
( Not a Number) ， 即 非 数 的 意思 - 设立 NaN 的 目的 是 让 程序 员 推 迟 程序 中 的 一 些 测 试 和 决定 ， 
等 到 方便 的 时 候 再 进行 . 

IEEE 754 的 设计 者 还 希望 浮 点 表示 能 够 比较 容易 处 理 整数 比较 ,特别 是 排序 的 时 候 。 这 就 是 
为 什么 符号 放 在 最 高 位 的 原因 ， 这 样 就 可 以 快速 地 测试 出 小 于 、 大 于 、 等 于 0 的 情况 。( 比 起 简 
单 的 整数 分 类 ， 它 稍 显 复杂 ， 因 为 这 种 记 数 法 本 质 上 是 符号 和 数值 的 形式 ， 而 不 是 补 码 形式 -) 

将 指数 放 在 有 效 数 前 也 能 简化 用 整数 比较 指令 来 处 理 的 浮 点 数 分 类 ， 因 为 在 有 着 相同 符号 
的 情况 下 ， 指 数 大 的 数 其 值 就 大 - 

负 的 指数 对 简化 分 类 形成 一 个 挑战 。 如 果 我 们 用 补 码 或 者 其 他 的 记 数 法 ， 可 能 会 使 负 指 数 
的 高 位 为 1， 从 而 使 一 个 负 指数 显得 是 一 个 大 数 了 。 例如 ，1. 0, x2 ”表示 如 下 : 
31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14131211109 876543210 
[oaiiiiiiioooooooooooooooooooo， 


(需要 注意 的 是 ， 尾 数 中 隐 含 前 导 1-) 而 数 1. 0, x2 ”看 起 来 似乎 是 一 个 较 小 的 二 进 制 数 。 


31 30 29 28.27126|25 24 23122|121|120|19118117 16 ,15|114113112j11101918171615|4 3|2|ilo 































00000000100000000000000000000.. .| 
因此 希望 记 数 法 能 将 最 小 的 负 指 数 表示 为 00…00, ， 而 最 大 的 正 指数 表示 为 11…11,。 这 种 记 数 
法 称 为 带 偏 阶 的 记 数 法 (biased notation ) 。 需 要 从 带 偏 阶 的 指数 中 减 去 偏 阶 ， 才 能 获得 真实 的 值 。 
IEEE 754 规定 单 精 度 的 偏 阶 为 127， 所 以 指数 为 -1， 则 会 表示 为 -1+127,。， 即 126, = 
0111 1110, ， 而 +1 表示 为 1+127， 即 128,。= 1000 0000,。 双 精度 的 指数 偏 阶 为 1023 。 给 指数 
带 偏 阶 后 ， 浮 点 数 表 示 为 





(-1)3x (1+EFraction) x2' rm) 


从 而 ， 单 精度 数 的 表示 范围 从 
+ 1. 000 000 000 000 000 000 000 00, x 2 


到 
<1.111111 111 111 111 111 111 11，x 272 


让 我 们 演示 一 下 浮 点 表示 。 


著 | 例题 : 浮 点 表示 
演示 用 [EEE 754 的 单 精度 和 双 精 度 格式 来 表示 -0. 75o。 
加 答案 
-0.75, 也 可 表示 为 
-3/4。 或 -3/22 
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它 的 二 进 制 小 数 形 式 为 


-11,/2% 或 -0.11， 


用 科学 记 数 表示 的 形式 为 

-0.11, x2" 
采用 规格 化 的 科学 记 数 ， 为 

-1.1, x27 
单 精度 的 通用 表达 式 为 


(—1)” x (1 + Fraction) x 2 "7) 


将 -1.1, x2” 的 指数 减 去 127， 得 到 


(-1): x (1 +0.1000 0000 0000 0000 0000 000,) x24025-27) 


所 以 -0.75, 的 单 精度 二 进 制 格式 为 





















































27 26 |25 24 23|22 21|20|19|18|47 16 15|14 13 | 12 14|10 9 | 8 |7 | 6|15|4 | 3 











2|11|0 








31|30|29 |28 
8 
1 位 

双 精 度 





Ltdd 0t00000000000000000 0 0 


0 0 0 








8 位 23 位 
表示 为 


(-1) x(1 +0. 1000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000,) 


x 023) 








30|29|28 








[27 26|25|24|23|22|21 20 19|18|17|16|15|14]1a]izjiajio| 9 | 8 | 7 | 6 | 5 | 4 | 3 | 


2|+|o| 





31 
于 





QO 4 





4 生生 法人 O00 OO 0 


0 0 0 





1 位 


11 位 20 位 





loooooooooooooooooooooooooooooooo 








让 我 们 


苇 ] 例题 


十 进 制 


32 位 
再 看 反方 向 的 一 个 例子 。 


二 进 制 转 十 进 制 浮 点 
数 如 何 用 单 精 度 浮 点 表示 ? 


口 





31|30|29 [28|27 [26 |25|24 |23 22 |21 |20 





19|18|17|16|15|14|13|12|11|io| 9 | 8 | 7 | 6 | 5 | 4 | 3] 





和 1 生 和 9 


0 .00001|0 11000000000000000000 00., 


八里 各 
加 





著 ] 答案 


符号 位 为 1， 指数 域 的 值 为 129， 尾 数 域 的 值 为 1 x2 ”=1/4， 即 0. 25。 使 用 基本 公式 ， 


(三 了 5 x(l 4 Fraction) x 2 EP 三 《二 1 《二 和 25》 x2 2 
=-1x1.25x2 
=—-1.25x4=-5.0 


0 


在 下 面 的 部 分 我们 将 给 出 浮 点 加 法 和 乘法 的 算法 。 其 核心 部 分 是 对 尾数 进行 相应 的 整数 
操作 ， 但 也 需要 额外 的 工作 去 处 理 指数 部 分 并 对 结果 进行 规格 化 。 我 们 先 给 出 直观 上 的 十 进 制 


算法 ， 然 后 


在 图 中 给 出 有 更 多 细节 的 二 进 制版 本 。 


团 ] 精 解 遵循 IEPEE 准则 ， 在 标准 发 布 20 年 后 ，IEEE 754 委员 会 依据 需求 对 标准 进行 了 更 
新 。 更 新 后 的 正 EE 754 -2008 标准 中 包含 了 正 EE 754 - 1985 标准 中 几乎 全 部 内 容 ， 并 且 
增加 了 16 位 〈 半 精度 ) 和 128 位 〈 四 精度 ) 。 到 目前 为 止 还 没有 硬件 支持 四 精度 ， 但 日 
后 必 会 出 现 。 更 新 后 的 标准 也 支持 十 进 制 浮 点 运算 ， 这 在 IBM 大 型 机 中 已 经 实现 。 
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车 | 精 解 为 了 在 保持 尾数 位 宽 不 变 的 情况 下 增 大 表示 范围 ， 一 些 早 于 IEEE 754 标准 的 计算 机 
采用 了 大 于 2 的 基数 。 例 如 ，IBM 360 和 370 大 型 计算 机 以 16 为 基数 。 因 此 每 当 IBM 机 的 指 
数 改变 1， 尾数 就 将 移 4 位 ， 所 以 基 为 16 的 规格 化 数 的 前 导 零 可 能 会 多 达 3 个 ! 也 就 意味 着 
有 3 个 有 效 位 要 从 尾数 中 去 掉 ， 从 而 在 浮 点 算术 精度 上 产生 较 大 的 问题 。 最 近 IBM 大 型 机 不 
但 支持 十 六 进 制 模式 也 开始 支持 正 EE 754 标准 。 


3. 5.2 浮 点 加 法 


为 了 说 明 浮 点 加 法 中 的 问题 ， 我 们 将 用 科学 记 数 法 表示 的 两 个 数 相 加 : 9. 999,。x 10' + 
1.610。x10”…。 假 设 我 们 只 能 存储 4 个 十 进 制 有 效 数 和 两 个 十 进 制 指数 。 

步骤 1: 为 了 能 让 两 数 相 加 ， 我 们 必须 将 有 较 小 指数 的 数 向 有 较 大 指数 的 数 对齐 。 

因此 ， 需 要 将 指数 较 小 1.610,。x10 的 向 指数 大 的 数 对 齐 。 由 于 一 个 非 规 格 化 的 浮 点 数 可 
以 有 多 种 科学 计数 法 的 表示 形式 ， 可 以 利用 这 一 特性 完成 指数 的 对 齐 。 

1.610,, x 10™ = 0.1610, x 10" = 0.016 10,, x 10' 

最 右边 的 表示 形式 是 我 们 所 需要 的 ， 因 为 它 和 较 大 的 数 9. 999,。x 10 的 指数 相同 。 因 此 第 
一 步 要 向 右 移动 较 小 数 的 有 效 数 ， 使 其 指数 和 较 大 数 的 指数 相同 。 由 于 我 们 只 能 表示 4 位 十 进 
制 数 ， 所 以 ， 移 位 后 得 到 的 数 为 

0.016,，x 10" 
步骤 2: 将 有 效 数 相 加 : 


9.999 


+ 0.016， 
10. 015 。 


和 为 10. 015,。 x10'。 
步骤 3: 因为 和 不 是 规格 化 科学 记 数 的 形式 ， 所 以 我 们 需要 调整 : 
10.015,, x 10' = 1.0015,, x 10? 

因此 ， 在 加 法 后 ， 我 们 可 能 需要 对 和 移 位 ， 将 其 变 为 规格 化 形式 ， 同 时 相应 地 调整 指数 。 
在 这 个 例子 中 是 右 移 ， 但 是 如 果 一 个 数 为 正 ， 一 个 数 为 负 ， 则 和 可 能 会 有 许多 前 导 0， 从 而 需 
要 左 移 。 无 论 指数 是 增加 还 是 减少 ， 我 们 都 需要 检查 上 溢 或 者 下 滋 一 一 我 们 必须 保证 指数 能 够 
被 固定 位 宽 的 指数 域 所 表示 。 

步骤 4: 因为 我 们 假设 有 效 数 只 有 4 位 十 进 制 数 那么 长 (不 包括 符号 位 )， 所 以 我 们 需要 进行 
伟人 。 如 果 右 边 多 余 的 数 在 0 和 4 之 间 就 舍 掉 ， 如 果 右 边 多 余 的 数 在 5 和 9 之 间 ， 则 加 1。 数 

1. 001 5,, x 10° 
伟人 为 有 4 个 十 进 制 数 有 效 位 的 数 
1. 002,, x 10° 

这 是 因为 第 四 位 右边 的 数 在 5 和 9 之 间 。 注 意 ， 如 果 我 们 不 幸 将 1 加 到 了 一 串 9 上 ， 则 和 
不 能 再 规格 化 ， 我 们 需要 返回 到 步骤 3。 

图 3-14 按照 这 个 十 进 制 例子 给 出 了 二 进 制 浮 点 加 算法 。 步 又 1 和 步骤 2 与 上 面 例子 讨论 的 
类 似 : 调整 有 较 小 指数 的 数 ， 使 其 指数 与 有 较 大 指数 的 数 对 齐 ， 然 后 将 两 个 数 的 有 效 数 相 加 。 
步骤 3 规格 化 结果 ， 并 强制 检查 上 溢 和 下 溢 。 步 骤 3 中 上 洲 和 下 游 的 检查 依赖 于 源 操作 数 的 精 
度 。 回 忆 一 下 ， 指 数 全 0 保留 下 来 用 来 表示 0; 指数 全 1 保留 下 来 标记 指定 的 值 和 超出 正常 浮 
点 数 范围 的 情况 ( 见 3.5 节 的 精 解 ) 。 在 下 面 的 例子 中 需要 注意 ， 对 于 单 精 度 ， 最 大 的 指数 为 
127， 最 小 的 指数 为 -126。 
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著 ] 例题 * 二进制 浮 点 加 法 
按照 图 3-14 中 的 算法 ， 举 试 将 0. So 和 - 0. 437 5w 用 二 进 制 相 加 。 


中 


匹配 : 





图 3-14 浮 点 加 。 正 常 的 路 径 是 执行 一 次 步骤 3 和 步 又 4， 但 如 果 舍 人 使 和 变 为 未 规格 化 ， 则 


需要 重复 步骤 3 
答案 | 
首先 , 我 们 看 一 下 这 两 个 数 用 规格 化 科学 记 数 法 的 二 进 制 表示 ， 这 里 假设 我 们 使 用 4 位 精度 : 
0.50 =172, =17210 
=0. 1, =0. 1, x2° =1. 000, x2… 
-0.437 5,, = -7/16,。 = -7/2% 
= -0.011 1, = -0.011 1, x2°" = —1.110, x2™ 


现在 ,我 们 按照 如 下 的 算法 执行 : 
步骤 1: 将 有 最 小 指数 的 数 〈 -1.11, x2“) 的 有 效 数 进行 右 移 ， 直 到 其 指数 和 较 大 数 相 


-1.110, x2? =-0.111, x2” 
步骤 2: 将 有 效 数 相 加 : 
1.000, x2™ + (-0.111, x2”) = 0.001, x27 
步骤 3: 将 和 规格 化 ， 并 检查 上 游 和 下 洲 : 
0.001, x2™ = 0.010, x2™ = 0.100, x2™ = 1.000, x2™ 
因为 127 +4> -126， 所 以 没有 上 溢 和 下 溢 。( 带 偏 阶 的 指数 为 -4 +127， 即 123 ， 其 在 
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最 小 的 指数 1 和 最 大 的 未 保留 的 带 偏 阶 指数 254 之 间 。) 
步骤 4: 舍 人 和 : 
1.000, x 27™ 
这 个 和 已 经 是 精确 地 用 4 位 来 表示 了 ， 所 以 不 需要 再 做 伟人 。 
这 个 和 是 
1. 000, x 2™ = 0. 000 100 0, = 0. 000 1， 
二 = 1/16, = 0. 062 5 
这 就 是 0.5,, 和 一 0. 437 So 的 和 。 0 


许多 计算 机 会 使 用 硬件 来 尽 可 能 快 地 运行 浮 点 操作 。 图 3-15 给 出 了 浮 点 加 的 基本 结构 示 












将 较 小 的 数 进行 右 移 


加 操作 


规格 化 


会 入 


图 3-15 用 于 浮 点 加 的 算术 单元 的 结构 框图 。 图 3-14 的 每 步 从 顶 向 下 对 应 到 每 个 方 框 。 首 先 ， 使 用 一 
个 小 的 ALU 将 两 个 指数 相 减 来 决定 哪个 指数 大 及 大 多 少 。 指 数 差 将 控制 三 个 多 路 复 用 器 ; 从 
左 到 右 ， 选 择 出 较 大 的 指数 、 较 小 数 的 有 效 数 和 较 大 数 的 有 效 数 。 较 小 数 的 有 效 数 通过 右 移 
后 ， 和 较 大 数 的 有 效 数 用 一 个 大 的 ALU 相 加 。 规 格 化 步骤 将 和 左 移 或 者 右 移 ， 同 时 增加 或 者 
减少 指数 。 舍 人 产生 最 后 的 结果 ， 这 样 也 有 可 能 需要 再 次 规格 化 ， 然 后 产生 最 后 的 结果 
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.3.5.3 浮 点 乘法 


首先 ， 我们 手 算 一 个 十 进 制 乘法 的 例子 ， 其 中 数 用 科学 记 数 法 表示 : 1.110。x 10” x 
9. 200,。 x 10“。 假 设 我 们 只 可 以 存储 4 位 尾数 和 2 位 指数 。 
步骤 1: 不 像 加 法 ,我 们 只 是 简单 地 将 源 操作 数 的 指数 相 加 来 作为 积 的 指数 : 
新 的 指数 = 10 + (-5) =5 
现在 我 们 处 理 带 有 偏 阶 的 指数 并 要 确定 获得 相同 的 结果 : 10 +127 =137, 而 -5+127= 
122， 所 以 
新 的 指数 = 137 + 122 = 259 
这 个 结果 对 于 8 位 的 指数 域 来 说 太 大 ， 所 以 肯定 有 什么 地 方 出 错 了 ! 问题 出 在 偏 阶 上 ， 当 
我 们 将 指数 相 加 时 ， 也 对 偏 阶 实行 了 相 加 : 
新 的 指数 = (10 +127)+(-5+127) = (5 +2 x127) = 259 
因此 ， 当 将 带 偏 阶 的 数 相 加 时 ， 为 了 得 到 正确 的 带 偏 阶 的 和 ， 我 们 需要 将 一 个 偏 阶 从 和 中 
减 去 : 
新 的 指数 = 137 + 122 - 127 = 259 -127 = 132 = (5 + 127) 
5 就 是 我 们 刚 开始 计算 的 实际 指数 。 
步骤 2: 下 面 计 算 有 效 数 的 乘法 : 


1.110,。 
x 9.200。 
0000 
0000 
2220 
9990 
10212000,。 


每 个 源 操 作 数 十 进 制 小 数 点 右边 都 有 三 位 ， 所 以 积 的 尾数 的 十 进 制 小 数 点 在 从 右边 数 第 6 位 处 : 
10. 212 000。 
假设 我 们 只 可 以 保留 十 进 制 小 数 点 右边 三 位 数 ， 则 积 为 10. 212,, x 10”。 
步骤 3: 这 个 积 是 未 规格 化 的 ， 所 以 我 们 需要 规格 化 它 : 
10.212,, x 10” = 1.021 2,, x 10° 

因此 ， 在 乘法 后 ， 积 需要 右 移 一 位 来 变 成 规格 化 形式 ， 同 时 指数 加 1。 此 刻 ， 我 们 要 检查 
上 溢 和 下 溢 。 当 两 个 源 操作 数 都 很 小 时 一 一 两 者 都 有 非常 大 的 负 指 数 时 ， 就 有 可 能 发 生 下 滋 。 

步 又 4: 因为 之 前 我 们 假设 有 效 数 只 有 4 位 宽 (不 包括 符号 ) ， 所 以 我 们 必须 对 结果 进行 
舍 人 。 将 








1.021 2,, x 10° 

舍 人 为 只 有 4 位 的 有 效 数 

1.021,, x 10° 
步骤 5: 积 的 符号 取决 于 原始 源 操作 数 的 符号 。 当 它们 相同 时 ， 符 号 为 正 ; 否则 ， 符 号 为 

负 。 因此 , 积 为 

+ 1.021,, x 10° 
在 加 法 算法 中 ， 和 的 符号 由 有 效 数 相 加 来 决定 ,但 在 乘法 中 ， 积 的 符号 由 源 操作 数 来 决定 。 
再 一 次 ， 如 图 3-16 所 示 ， 二 进 制 浮 点 乘 的 步骤 和 我 们 刚 做 完 的 步骤 类 似 。 首 先 ， 我 们 将 
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带 偏 阶 的 指数 相 加 ， 并 减 去 一 个 偏 阶 ， 获 得 积 的 指数 。 接 着 是 有 效 数 的 乘法 ， 紧 跟 一 个 可 选 的 
规格 化 步骤。 指数 的 大 小 用 来 检查 上 溢 和 下 滋 ， 然 后 对 积 进行 伟人 。 当 舍 人 引起 进一步 的 规格 
化 时 ， 我 们 需要 再 次 检查 指数 的 大 小 。 最 后 ， 如 果 源 操作 数 的 符号 相 异 ， 就 将 符号 位 设 为 1 
〈 积 为 负 ) ; 如 果 相 同 ， 设 为 0〈 积 为 正 ) 。 


国 ! 例题 :二进制 浮 点 乘法 
按照 图 3-16 中 的 步 又， 试 计 算 0. 5 和 -0.437 Su 的 乘积 。 


加 答案 
在 二 进 制 下 ， 也 就 是 将 1. 000, x2 ”和 - 1. 110, x2 一 相 乘 。 
步骤 1: 将 不 带 偏 阶 的 指数 相 加 : 人 
-1+(-2) =-3 
或 者 ， 使 用 带 偏 阶 的 表达 : 
(-1+127)+(-2+127) -127 
=(-1-2)+(127+127 -127) 
=-3+1l127 = 124 
步骤 2: 将 有 效 数 相 乘 : 
1. 000， 
x 1.110, 


0000 
1000 
1000 
1000 
1110000, 
积 是 1. 110 000, x2”. 但 是 我 们 需要 保存 4 
位 ， 所 以 为 1.110, x2。 
步骤 3: 现在 我 们 检查 积 以 确保 其 是 规格 化 
的 ， 然 后 检查 指数 以 确定 上 溢 和 下 滋 是 否 发 生 。 
这 个 积 已 经 是 规格 化 的 , 并且 ， 因 为 127> -3= 
-126， 所 以 没有 上 滋 和 下 溢 。 (使 用 带 偏 阶 的 表 
达 ，254 宇 124 宇 1， 所 以 指数 域 可 以 表达 .) 
步骤 4: 对 积 舍 入 没 有 使 其 发 生变 化 : 





1.110, x 2™ 
步骤 5: 因为 初始 的 源 操作 数 的 符号 相 异 ， 
所 以 积 的 符号 为 负 。 因 此 ， 积 为 图 3-16 浮 点 乘法 。 正 常 的 路 径 是 执行 一 次 步 
-1.110, x2” 骤 3 和 步骤 4， 但 如 果 舍 人 使 积 变 为 非 


为 了 检查 结果 ， 将 其 转化 为 十 进 制 i 
-1.110, x2™ = -0.001110, = -0.00111, =-7/2i, =-7/32,, =-0.21875, 


而 0.5, ,和 -0.4375, 的 积 确实 是 -0.218 75,,。 O 


3.5.4 MIPS 中 的 浮 点 指令 
MIPS 有 如 下 指令 来 支持 正 EE 754 的 单 精度 和 双 精 度 格式 : 





209 
1 
210 


740 


油 
wo 





e 浮 点 单 精度 加 (add: 
e 浮 点 单 精度 减 (sub. 


s) 和 双 精 度 加 (add. d)。 

s) 和 双 精 度 减 (sub. d)。 

。 浮 点 单 精 度 来 (mul. s) 和 双 精 度 乘 (mul. d) 。 

e 浮 点 单 精 度 除 (div. s) 和 双 精 度 除 (div. d)。 

@。 浮 点 单 精 度 比较 (c. x. s) 和 双 精 度 比较 (c. x. d)， 其 中 ，x 可 能 是 等 于 (eq)、 不 

等 于 (neq)、 小 于 (1t)、 小 于 等 于 (le)、 大 于 (gt) 或 大 于 等 于 (ge)。 

。 浮 点 比较 为 真 跳 转 (bclt) 和 浮 点 比较 为 假 跳 转 (bc1f)。 

根据 比较 条 件 ， 浮 点 比较 将 比较 结果 设 为 真 或 者 假 ， 然 后 浮 点 跳 转 将 比较 结果 作为 条 件 决 


定 是 否 跳 转 。 


MIPS 设计 增加 了 单独 的 浮 点 寄存 器 





称 为 $f0, $fl1, $f2 ，… 一 一 用 于 单 精度 及 双 精 


度 。 因 此 ， 也 有 单独 的 针对 浮 点 寄存 器 的 在 和 取 指 令 : lwcl 和 swcl 。 浮 点 数据 传送 的 基 寄 存 


器 仍然 采用 整数 寄存 器 。 从 内 存 载 人 两 个 单 精度 数 ， 将 其 相 加 ， 然 后 再 将 和 存 人 内 存 的 MIPS 


代码 可 能 是 这 样 的 : 
lwcl $f4,c($sp) # Load 32-bit F.P. number into F4 
lwcl $f6,a($sp) -# Load 32-bit F.P. number into F6 
add.s $f2,$f4,$f6 # F2 = F4 + F6 single precision 
swcl $f2,b($sp) # Store 32-bit F.P. number from F2 


双 精 度 寄存 器 是 一 组 单 精度 寄存 器 的 偶数 - 奇数 对 ， 并 使 用 偶数 寄存 器 编号 作为 其 名 称 。 


因此 ， 一 对 单 精 度 寄 存 器 $f2 和 $f£3 形成 一 个 双 精 度 寄存 器 ， 称 为 $f2。 


图 3-17 汇总 了 本 章 介绍 过 的 MIPS 体系 结构 中 的 浮 点 部 分 ， 其 中 为 支持 浮 点 而 增加 的 部 分 


用 加 粗 标记 。 类 似 于 第 2 章 中 的 图 2-19， 图 3-18 给 出 了 这 些 指令 的 编码 。 





| 32 个 浮 点 寄存 器 | $f0, $t1,$t2,..,$f3l | 


例题 


MIPS 浮 点 操作 数 








成 对 地 使 用 MIPS 浮 点 寄存 器 来 保存 双 精 度数 | 

























































































Memory [0] ， 仅仅 被 数据 传输 指令 访问 。MIPS 使 用 字 节 地 址 ， 所 以 连续 
23 个 存储 字 Memory [4]，.…， 的 字 地 址 相差 4。 存储 器 用 来 保存 像 数组 这 样 的 数据 结构 和 在 
Memory [4294967292 ] 过 程 调用 中 换 出 的 寄存 器 
MIPS 浮 点 汇编 语言 
备注 
浮 点 单 精度 加 add.s $f2, $f4, $f6| $f2= $f4+ $f6 浮 点 加 ( 单 精度 ) 
浮 点 单 精度 减 sub.s $f2,$f4, $f£6 $f£2 = $f4 - $f£6 浮 点 减 〈 单 精度 ) 
浮 点 单 精 度 乘 mul.s $f2,$f4,$f6 $f2 = $f4 x $f6 浮 点 乘 〈 单 精度 ) 
算术 浮 点 单 精度 除 div.s $f2, $f4, $f£6 $f2 = $f4/ $f6 浮 点 除 ( 单 精度 ) 
浮 点 双 精 度 加 add.d $f2, $f£4,$f6 $f2 = $f4 + 8$f6 浮 点 加 〈 双 精度 ) 
浮 点 双 精 度 减 sub.d $f2, $f4, $f£6 $f2 = $f4 - $f6 浮 点 减 〈 双 精度 ) 
浮 点 双 精 度 乘 mul.d $f2,$f£4,$f£6 $f2 = $f4 x $f6 浮 点 乘 ( 双 精度 ) 
浮 点 双 精 度 除 div.d $f£2,$f4,$f£6 $f2 = $f£4/ $f£6 浮 点 除 〈 双 精度 ) 
从 内 存 中 取 字 到 浮 点 $fl = 存储 [$s2 +| 32 位 的 数据 传 给 浮 点 
lwcl $f1,100 ($s2) 
数据 “| 寄存 器 100 | 寄存 器 
传输 | 从 浮 点 寄存 器 中 存 字 ol sa log ($s2) | 存储 [$s2 +100] =| 32 位 的 数据 传 给 存 
| 到 内 存 ， $fl 储 器 
图 3-17 以 前 介绍 过 的 MIPS 浮 点 体系 结构 。 附 录 A. 10 有 更 详细 的 介绍 。 这 个 信息 也 可 以 在 MIPS 参考 


数据 卡 的 第 2 列 里 找到 
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EE 
如 果 (cond ==1) 如 果 浮 点 标志 为 真 则 
践 至 PC +4+100 执行 PC 相关 联 的 跷 转 









浮 点 标志 真 则 践 


bi 
如 
口 
上 

ot 
ID “ 
Cn 




























了 ， 有 和 如果 (cond = =0) 如 时 浮 点 标志 为 假 则 
网 浮 点 标志 候 则 跳 转 sa 25 二 RE | 
就 甘 ”| 学 点 羊 精度 比较 (eq | 如 果 (sf2 < S44) | ”学 点 单 精度 比较 .如 | 
| ine, lt, le, ge) | 7 | 则 cond=1; 否则 cond=0 | 果 小 于 则 置 cood 
| | 浮 点 双 精 度 比 较 (eq,| ， ，。 。，。， | 如 果 ( Sf2 < $4) | 浮 点 双 精度 比较 , 如 | 
,hg FE) “| 站 SF2，S64 | 则 cd=1。 香 则 coil-0 | 果 小 于 出 晤 cmd | 
MIPS 浮 点 机 器 语言 


Rs 




































































R 6 4 2 a 
R 17 16 6 4 2 ub. 
R i7 16 6 4 2 mul. , 
R 17 16 6 4 2 ai. $3 = | 
R 17 17 6 4 2 到 = F4 
R 17 17 6 4 2 ub. a SE4， 
| R 17 17 6 4 2 3 2 1 | 
| aiv.a R 17 7 | 4 4 2 | aira sf2， $54, 
1wcl I 49 20 2 100 lwcl ,10 4) 
swe I 57 20 2 100 cl 和 2 
bclt I 17 8 1 25 bclt 25 
bcl I 17 8 0 25 bclE 25 | 
Cc. lit.s R i 16 4 2 0 60 C1lt.s Sf2, $f4 | 
c.it.d R 17 17 4 9 0 60 cltd SE2，S$Sf4 
域 宽 6 位 | 5 位 | 5 位 | 5 位 | 5 位 | 6 位 | 所 有 MIPS 指令 都 是 32 位 宽 | 
图 3-17 ( 续 ) 
op(31:26) 
28 ~26 | | | 
3 29 0(000) 1(001) 2(010) | 3(011) | 4(100) 5(101) | 6(110) | 7(111) | 
0(000) REmE Bltz/qez 1 | 


jal | beq bne | bliez | bgtz | 
二 














Sf101 ) sb | sh swl Sw | Swr 
| 6(110) iwcO liwcl | | | | 








| 7(111) SWCO swcl | | | 

图 3-18 MIPS 浮 点 指令 编码 。 标记 是 按照 行 和 列 答 出 起 信 ， 例如 ， 在 图 的 项 端 部 分 ， 在 第 4 行 (指令 的 
31 ~29 位 为 100:) 和 第 3 列 (指令 的 28 ~26 位 为 011,) 可 以 发 现 1w， 所 以 op 域 (31 ~26 
位 ) 相应 的 值 为 100011,。 带 下 划 线 意味 着 该 域 用 于 其 他 地 方 。 例如， 在 第 2 行 第 1 列 的 FlPt 
(op =010001, ) 定义 在 图 的 底 端 。 因此 ,在 图 底部 第 0 行 第 1 列 的 sub. f 意味 着 funct 域 ( 指 
令 的 5~0 位 ) 为 000001, 且 op 域 (31 ~26 位 ) 是 010001:- 注意 在 图 的 中 间 给 出 的 5 位 的 
域 ， 决 定 了 操作 是 单 精度 (f=s， 所 以 rs =10000) 还 是 双 精 度 (f=d， 所 以 rs =10001)。 类 似 
地 ， 指 令 的 16 位 决定 了 指令 bcl. c 是 测试 为 真 (16 位 =1 = >bcl.t) 还 是 为 假 (16 位 =0= > 
bc1l. E) 。 加 和 粗 的 指令 是 在 第 2 章 或 者 本 章 描述 过 的 . 附录 A 给 出 了 全 部 指令 。 这 个 信息 也 可 
以 在 MIPS 参考 数据 卡 的 第 2 列 里 找到 
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23 ~21 




















25 -24 0(000) 1(001) 2(010) 3(011) 4(100) 5(101) 6(110) 7(111) 
EE ,eI 
0(00) mfcl cfcl mtcl ctcel 
1 (01) bcl.c 
| 2010) | f= 单 精度 | /= 双 精 度 | 








3(11) 














op(31:26) =010001( FIPt) ，( 上 面 的 /: 10000 =0 =>/= 





s; 10001 =0=>/=d), funct(5:0): 





































































































a 0(000) 1(001) 2(010) 3(011) 4(100) 5(101) 6(110) 7(111) 
0(000) add.f sub.f mul.f div.f abs.f mov.f neg.f 
1(001) 

2(010) 

3(011) 

4(100) cvt.s.f cvt.d.f cvt.w.f 

5(101) 

6(110) GE cunf c.eq.f c.ueq.f Colt,f 和 c.ole.f c.ule.f 

TCLILY c.sf.f c.ngle.f c. seq.f Gngbf Lt: c.nge.f c.le.f c.ngt.f 
图 3-18 〈 续 ) 


苇 ] 硬件 /软件 接口 ”在 支持 浮 点 算术 方面 ， 体 系 结构 设计 者 面临 着 一 个 问题 : 是 否 和 整数 指 
令 使 用 相同 的 寄存 器 ， 或 者 为 浮 点 增加 一 组 专用 的 寄存 器 。 因 为 程序 通常 对 不 同 的 数据 执 
行 整数 和 浮 点 操作 ， 独 立 的 寄存 器 会 略微 增加 程序 中 要 执行 的 指令 数目 。 主 要 的 影响 是 需 
要 建立 一 组 独立 的 指令 用 于 浮 点 寄存 器 和 内 存 之 间 数 据 的 传输 。 

单独 的 浮 点 寄存 器 的 好 处 是 倍增 了 寄存 器 数目 而 不 需要 在 指令 格式 中 增加 更 多 的 位 
数 ， 同 时 因为 使 用 了 相互 独立 的 整数 和 浮 点 寄存 器 推 而 倍增 了 寄存 器 带宽 ， 另 外 ， 还 可 以 
量 身 定 做 针对 浮 点 的 寄存 器 ; 例如 ， 一 些 计 算 机 将 寄存 器 中 各 种 大 小 的 源 操 作 数 转 化 为 一 
种 单一 的 内 部 格式 。 


使 ] 例题 , 将 浮 点 C 程序 编译 为 MIPS 汇编 代码 


将 华氏 温度 转 为 摄氏 温度 : 
float f2c (float fahr) 
{ 


return ((5.0/9.0) *(fahr - 32.0)); 
} 


假设 浮 点 变量 fahr 存放 在 $f12 中 ,结果 存放 在 $f0 中 。( 不 像 整 数 寄存 嚣 ， 浮 点 寄存 
器 0 也 可 以 存储 数据 。) 那么 MIPS 汇编 代码 是 什么 ? 


四 ] 答案 

我 们 假设 编译 器 将 三 个 浮 点 常数 放置 在 内 存 中 ,并 且 可 以 用 全 局 指针 $gp 很 容易 地 获得 。 
首先 前 两 个 取 数 指令 将 常数 5. 0 和 9. 0 载 人 浮 点 寄存 器 : 

fa 


lwcl $f16,const5($gp) # $f16 = 5.0 (5.0 in memory) 
Iwcl $f18,const9($gp) # $f18 = 9.0 (9.0 in memory) 


然后 相 除 得 到 分 数 5. 0/9. 0: 


div:s $f16, $f16, $f18 # $f16 = 5.0 / 9.0 


计算 机 的 算术 运算 -3 





(许多 编译 器 在 编译 的 时 候 就 做 了 5. 0 除 以 9.0 的 操作 ， 并 将 单 精度 常数 5.0/9.0 存 人 内 存 ， 从 


而 在 运行 的 时 候 避 免 做 除法 .) 下 面 ， 我 们 将 常数 32. 0 载 人 ， 然 后 将 其 从 fahr ($f12) 中 减 去 : 
1wcl $f18, const32($gp)# $f18 = 32.0 
sub.s $f18, $f1l2, $f18 # $f18 = fahr - 32.0 


最 后 ， 我 们 将 两 个 中 间 结 果 相 乘 ， 积 作为 返回 结果 放 在 $f0 中 ， 然 后 程序 返回 
mul.s $f0, $f16, $f18 # $f0 = (5/9)*(fahr - 32.0) 
jr $ra # return 


现在 ， 让 我 们 做 浮 点 矩阵 操作 ， 其 代码 在 科学 计算 程序 中 是 常见 的 。 0 
加 例题. 将 二 维和 矩阵 的 浮 点 C 程序 编译 为 MIPS 

许多 浮 点 计算 都 采用 双 精 度 。 现 在 做 矩阵 乘法 Cc = Cc + A* B， 这 通常 称 为 双 精 度 通用 矩阵 
乘法 (简称 DCEMM) 。 我 们 将 在 3. 8 节 以 及 后 面 的 第 4、5、6 章 中 都 会 看 到 该 版 本 。 假 定 A、 


B\C 都 是 32 x32 的 矩阵 。 
void mm (double c[Jj[], double a[J[], double b[][]) 
{ 


0; i != 32; 1=i+1) 

for (j=0;j !=32;j=j+1) 

for (k=0;k != 32;k=k+1) 
elj jtj] = €LiJrj] + aiJLk] *bLKILI]; 


} 

数组 的 开始 地 址 都 是 参数 ， 存 在 $a0 、$al 、$a2 中 。 假 设 整数 变量 分 别 存在 $s0、$ sl、 
$s2 中 。 这 段 程序 的 MIPS 汇编 代码 是 什么 ? 
中 答案 

注意 到 c[i][j」 处 于 上 面 循环 的 最 里 面 。 因 为 循环 变量 是 k， 不 影响 c[i][j] ， 所 以 我 
们 可 以 避免 在 每 次 迭代 时 载 人 和 存储 c[ i ][j]。 相 反 ， 编 译 器 每 次 在 循环 外 将 c[i][j] 载 
人 一 个 寄存 器 ， 然 后 将 a[ i][k] 和 wb[k][j] 的 积累 加 到 这 个 寄存 器 里 ， 在 最 里 层 的 循环 结 
束 后 将 和 存 人 cL i][j]。 

为 了 保持 代码 简洁 ， 我 们 使 用 汇编 语言 的 伪 指令 1i (其 将 一 个 常数 载 人 一 个 寄存 器 )、1. d 
和 s. da (汇编 器 将 其 变 为 一 对 数据 传送 指令 、1wcl 和 swcl ， 向 一 对 浮 点 寄存 器 传送 数据 ) 。 

程序 段 首先 将 循环 结束 值 32 存 人 一 个 临时 寄存 器 中 ， 然 后 初始 化 循环 变量 : 

攻 隐 六 5 5 


1i $t1l, 32 # $tl = 32 (row size/loop end) 


1i $s0, 0 #1i= 0; initialize lst for loop 
L1: 1i $sl, 0 #j = 0; restart 2nd for loop 
Li $s2, 0 # k= 0; restart 3rd for loop 


要 计算 c[i][j] 的 地 址 ,我 们 首先 要 知道 一 个 32 x 32 的 二 维 矩阵 是 如 何在 内 存 中 存储 
的 。 正 如 你 所 料 ， 它 的 排 布 如 同 32 个 有 32 个 元 素 的 一 维 矩阵 。 所 以 获得 我 们 需要 的 元 素 的 第 
一 步 是 跳 过 第 个 “一 维 矩 阵 ” 或 者 第 工行 。 因 此， 我 们 用 首 维 的 索引 乘 以 行 的 大 小 ，32。 
因为 32 是 以 2 为 底 的 指数 值 ， 所 以 我 们 可 以 用 移 位 来 替代 : 


sll $t2, $0, 5 # $t2 = i * 25 (size of row of c) 


现在 我 们 加 上 第 二 维 的 索引 来 获得 我 们 想 要 的 那 行 的 第 j 个 元 素 : 


addu $t2, $t2, $sl # $t2 = i * size(row) + j 

为 了 将 这 个 和 转化 为 按 字 节 的 索引 ， 我 们 给 它 乘 上 矩阵 元 素 所 占 的 字 节 大 小 。 因 为 每 个 元 
素 都 是 双 精 度 的 ， 所 以 占 了 8 字 节 ， 我 们 用 左 移 3 位 来 代替 : 

s11 2， 轩 2 3 # $t2 = byte offset of [i]J[j] 

下 面 我 们 将 这 个 和 加 上 c 的 基地 址 ， 得 到 c[ i][j] 的 地 址 ， 然 后 将 双 精 度数 c[ i][j] 
载 人 $f4 寄存 器 中 : 
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addu $t2, $a0, $t2  # $t2 = byte address of c[i]j[j] 
1.d $f4，0($t2) # $f4 = 8 bytes of c[i][j] 


接着 的 5 条 指令 类 似 于 刚才 的 5 条 : 计算 双 精 度数 b[ k][j] 的 地 址 ， 然 后 将 其 载 入 。 
L838: S11 $t0, $s2; 5 # $t0 = k * 25 (size of row of b) 

addu $t0, $t0, $sl # $t0 = k * size(row) + j 

sill $t0, $t0, 3 # $t0 = byte offset of [kJ[j] 


addu $t0, $a2, $t0 # $t0 byte address of b[kj[j] 
ld $f16, OC($E0.) # $f16 = 8 bytes of b[kj[j] 


类 似 地 ， 下 面 的 5 条 指令 像 刚 才 的 5 条 一 样 : 计算 双 精 度数 al i][k] 的 地 址 ， 然 后 将 其 


载 人 。 
ei $t0, $s0, 5 # $t0 = i * 25 (size of row of a) 
addu $t0, $t0, $s2 # $t0 = i * size(row) + k 
sll 4t0，$t0，3 # $t0 = byte offset of [ij[k] 
addu $t0, $al, $t0O # $t0 = byte address of a[i][k] 
1.d $f18, 0O($t0) # $f18 = 8 bytes of a[i]j[k] 
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现在 已 经 载 人 了 所 有 的 数据 ， 我 们 终于 可 以 做 一 些 浮 点 操作 了 ! 我 们 将 分 别 存在 $f18 和 
$f16 中 的 a、b 的 元 素 相 乘 ,然后 累加 到 $f4 中 。 


mul.d $f16, $f1l8, $f16 # $f16 = a[i][k] * b[kj[j] 
add.d $f4, $f4, $f16 # f4=cr[i][j]+ari][rk]*brk]rj] 


最 后 的 部 分 将 循环 变量 k 加 1， 如 果 索 引 值 没 到 32 ， 则 再 次 返回 循环 。 如 果 到 了 32， 则 结 
束 最 里 层 的 循环 ， 将 放 在 $f4 中 的 累加 和 存 人 c[ i][j]。 


addiu $s2，$s2，1 # $k=k+1 
bne $8 tL LS # if (k != 32) go to L3 
Ssd $f4，0($t2 ) # cLij[j] = $f4 


类 似 地 ， 最 后 4 条 指令 增加 中 间 和 最 外 层 的 循环 变量 ， 如 果 没 有 到 32 则 返回 循环 ， 否 则 
在 到 达 32 后 退出 循环 。 


addiu $sl, $sl], 1 # $j=j+1 
bne $s StL, [2 # if (j != 32) go to L2 
addiu $s0, $s0, 1 # $i=1i +1 
bne $s0, $tl, Ll1 # if (i != 32) go to Ll1 


后 面 的 图 3-22 给 出 了 DCEMM 的 x86 汇编 语言 代码 ， 该 版 本 与 图 3-21 中 的 DGEMM 版 本 略 
有 不 同 。 口 


团 | 精 解 ”上面 例子 中 的 阵列 排 布 ， 称 为 行 主 序列 ， 用 于 许多 C 和 其 他 编程 语言 中 。 但 For- 
tran 采用 的 是 列 主 序列 ， 即 阵列 是 一 列 一 列 地 存储 。 

号 ] 精 解 32 个 MIPS 浮 点 寄存 器 中 ， 只 有 16 个 能 用 于 双 精 度 操作 : $f0，$f2 ，$f4，…， 
$f30。 计 算 中 ， 双 精度 使 用 了 成 对 的 单 精度 寄存 器 。 奇 数 编号 的 浮 点 寄存 器 只 是 载 入 和 
存储 64 位 浮 点 数 的 右 半 部 分 。MIPS-32 给 指令 集 增加 了 1. d 和 s. d 指令 。MIPS-32 也 为 所 
有 浮 点 指令 增加 了 “ 单 精 度 配对 ” (paired single) 版 本 ， 这 里 每 个 单 指令 能 够 对 两 个 32 位 
的 源 操作 数 并 行 执行 浮 点 操作 ， 这 两 个 32 位 的 源 操作 数 存在 64 位 的 寄存 器 中 〔( 见 3.6 节 )。 
例如 ，aqd. ps $f0，$f2，$f4 等 价 于 add.s $f0，$f2，$f4 和 add.s $fl，$f3， 
$5 

团 | 精 解 ”将 整数 和 浮 点 寄存 器 分 开 的 另外 一 个 原因 是 在 20 世纪 80 年 代 的 处 理 器 还 没有 足够 的 
晶体 管 将 浮 点 单元 和 整数 单元 放 在 同一 个 臣 片 上 。 因 此 ， 浮 点 单元 ， 包 括 浮 点 寄存 器 ， 只 是 
一 个 备 选 的 辅助 芯片 。 这 个 可 选 的 加 速 芯片 称 为 协 处 理 器 。 按 首 字母 缩写 的 MIPS 的 浮 点 
load 指令 lwcl 的 意思 是 载 入 一 个 字 到 协 处 理 器 1， 浮 点 单元 。( 协 处 理 器 0 处 理 虚拟 内 存 ， 
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第 5 章 对 其 进行 描述 。) 自 20 世纪 90 年 代 早 期 ， 微 处 理 器 已 经 将 浮 点 单元 和 其 他 功能 单元 
集成 在 一 个 蕊 片上 。 因 此， 由 加 速 器 和 内 置 存储 器 组 成 的 协 处 理 器 的 术语 已 经 过 时 了 。 
邯 | 精 解 正如 3.4 节 提 到 的 ， 加 速 除法 比 乘法 更 有 挑战 性 。 除 了 SRT， 还 有 一 种 利用 快速 乘 
法 器 的 技术 ， 称 为 牛顿 迭代 ， 它 将 除法 变换 为 通过 寻找 函数 的 零点 来 求 倒数 1/c， 然 后 将 
其 乘 以 另 一 源 操作 数 。 如 果 不 计 算 更 多 的 位 ， 和 迭代 技术 是 无 法 进行 正确 舍 入 的 。 如 TI 的 
一 款 芯 片 通过 计算 倒数 更 多 有 效 位 的 方法 来 解决 这 一 问题 。 

团 | 精 解 Java 在 定义 浮 点 数据 类 型 和 操作 时 遵循 IEEE 754 标准 。 因 此 ， 可 以 更 好 地 生成 第 
一 个 例子 中 的 代码 ， 是 一 种 经 典 的 将 华氏 温度 转换 为 摄氏 温度 的 方法 。 

第 二 个 例子 里 使 用 了 多 维 矩 阵 ， 不 被 Java 显 式 支持 。Java 允许 在 数组 中 媒 套 数组 ， 但 

是 不 支持 像 C 中 的 多 维 矩阵， 每 个 数组 可 能 有 自己 的 长 度 。 像 第 2 章 中 的 那些 例子 ， 第 二 
个 例子 的 Java 版 本 需要 大 量 的 代码 来 进行 数组 的 边界 检查 ， 包 括 在 行 访 问 后 对 新 的 长 度 
进行 计算 。 它 可 能 还 需要 检查 对 象 引用 是 否 非 空 。 


3. 5.5 算术 精确 性 


与 整数 可 以 精确 地 表示 在 最 大 数 和 最 小 数 之 间 的 所 有 数 不 同 ， 浮 点 数 通常 是 一 个 无 法 表示 
的 数 的 近似 。 原 因 是 ， 假 定 在 0 和 1 之 间 ， 实 数 就 有 无 穷 多 个 ， 而 双 精 度 最 多 可 以 精确 表示 2” 
个 。 我 们 能 做 到 最 好 的 就 是 给 出 最 接近 实际 数 的 浮 点 表示 。 因 此 ，IEEE 754 提供 了 几 种 舍 人 模 
式 来 供 程序 员 选 择 他 们 想 要 的 近似 策略 。 


保护 位 : 在 浮 点 数 中 间 计 算 中 ， 在 右边 多 保留 的 两 位 中 的 首位 ; 用 于 提高 合 入 精度 。 

会 入 位 ;在 浮 点 数 中 间 计 算 中 ， 在 右边 多 保留 的 两 位 中 的 第 二 位 ; 使 浮 点 中 间 结果 满足 浮 
点 格式 ， 得 到 最 接近 的 数 。 

舍 人 听 起 来 很 简单 ， 但 它 需 要 硬件 支持 在 计算 中 产生 更 多 的 有 效 位 。 在 前 面 的 例子 中 ,我 
们 对 中 间 结 果 占 有 多 少 位 未 做 介绍 ， 但 很 明显 的 是 ， 如 果 每 个 中 间 结 果 都 截 短 成 准确 的 位 数 ， 
就 没 法 做 伟人 了 。IEEE 754 因此 在 中 间 计 算 中 ,右边 总 是 多 保留 两 位 ,分 别称 为 保护 位 
(guard) 和 舍 入 位 (round)。 我 们 用 一 个 十 进 制 的 例子 来 说 明 它 们 的 作用 。 


邯 | 例题 * 使 用 保护 位 来 合 入 
将 2.56,。 x 10' 和 2.34,。x10* 相 加 ， 假 设 我 们 有 3 位 十 进 制 尾数 。 首 先 使 用 保护 位 和 舍 入 位 
将 其 合 人 到 只 有 三 位 尾数 的 最 近 数 ， 然 后 不 用 保护 位 和 舍 信 位 再 做 一 次 〈 舍 人 ) 。 
著 ) 答案 
首先 我 们 右 移 较 小 数 以 对 齐 指数 ， 所 以 2. 56 x 10" 变 为 0. 025 6o x 10?。 因 为 有 了 保护 位 
和 伟人 位 ， 所 以 当 我 们 对 齐 指数 时 可 以 表示 两 个 最 低位 。 保 护 位 为 5 而 伟人 位 为 6。 求 和 ， 
2.340 0% 
+ 0.025 6, 


2. 365 6 
因此 ， 和 为 2.365 61。x 10*。 因 为 需要 舍 人 掉 两 位 ， 所 以 我 们 需要 以 50 为 分 水 岭 ， 在 其 值 
为 0~49 之 间 时 舍 掉 ， 在 51 ~99 之 间 时 向 上 舍 信 。 向 上 舍 人 这 个 和 ， 变 为 2. 37o x10 。 
在 计算 中 ， 在 没有 保护 位 和 舍 和 信 位 的 情况 下 舍 人 掉 两 位 。 新 的 和 为 : 
2.34% 
+ 0.02% 


2. 361 
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答案 是 2. 36,。x10*， 比 上 面 的 结果 在 最 低位 上 少 1。 OO 
因为 最 糟糕 的 情况 是 实际 的 数 在 两 个 浮 点 表示 的 中 间 ， 浮 点 的 精确 性 通常 是 用 尾数 的 最 低 


位 上 有 多少 位 的 误差 来 衡量 。 这 种 衡量 称 为 尾数 最 低位 (unit in the last place) 的 数目 ， 即 
ulp。 如 果 一 个 数 在 最 低位 上 少 2， 则 称 其 少 了 2 个 ulp。 在 没有 上 洲 、 下 淤 或 无 效 操 作 异 常 的 
情况 下 ，IEEE 754 保证 了 计算 机 使 用 的 数 的 误差 都 在 半 个 up 以 内 。 


之 


尾数 最 低位 : 在 实际 数 和 能 表达 的 数 之 间 的 有 效 数 最 低位 上 的 误差 位 数 。 


苇 ] 精 解 尽管 上 面 的 例子 实际 只 多 需要 一 位 ， 但 乘法 需要 两 位 。 一 个 二 进 制 乘积 可 能 有 一 位 


As 
bi 


前 导 0; 因此 ， 规 格 化 步骤 必须 将 积 左 移 一 位 。 这 个 移 位 会 将 保护 位 移入 积 的 最 低位 ， 留 
下 例 入 位 来 精确 地 合 入 乘积 。 

IEEE 754 有 四 种 舍 入 模式 : 总 是 向 上 舍 入 (向 +%m)， 总 是 向 下 舍 入 (向 -%m),， 截 
断 合 入 ， 向 最 靠近 的 偶数 合 入 。 最 后 一 种 模式 给 出 了 当 数 值 在 中 间 时 如 何 去 做 。 美 国 国税 
局 (IRS) 也 许 为 了 自身 的 利益 ， 总 是 将 0. 50 美元 向 上 爸 入 。 一 种 更 公平 的 办 法 是 : 一 半 
时 间 里 使 用 向 上 含 入 ， 另 一 半 时 间 里 使 用 向 下 含 入 。 耻 EE 754 处 理 这 种 中 间 情 况 的 方法 
是 如 果 最 后 一 位 是 奇数 ， 就 加 1; 如 果 是 偶数 ， 则 截 去 。 这 种 方法 总 是 在 中 间 情 况 下 将 最 
低位 设 为 0， 正 如 舍 入 模式 的 名 称 。 这 种 模式 是 用 得 最 多 的 ， 而 且 是 唯一 被 Java 支持 的 
模式 。 

使 用 额外 的 舍 入 位 的 目的 是 让 计算 机 获得 相同 的 结果 ， 就 如 同 是 先 以 无 穷 的 精度 计算 
中 间 结 果 ， 然 后 执行 合 入 那样 。 为 了 支持 这 个 目标 并 向 最 靠近 的 偶数 合 入 ，IEEE 754 标 
准 在 保护 位 和 使 入 位 之 后 还 有 一 位 粘贴 位 (sticky bit); 当 倒 入 位 右边 的 数 非 零 时 将 它 置 
1。 粘 贴 位 可 以 让 计算 机 在 舍 入 时 ， 能 够 区 分 0. 50…00o 和 0. 50…01lio。 

粘贴 位 可 能 被 置 1， 例如， 在 加 法 中 ， 当 较 小 数 右 移 时 就 可 能 这 样 。 假 设 在 前 面 的 
例子 里 我 们 将 5.011。x 10” 和 2.34i。x10 相 加 。 即 使 有 保护 位 和 会 入 位 ， 我们 将 
0. 0050 和 2. 34 相 加 ， 得 到 2.3450。 粘 贴 位 会 被 置 1， 因 为 右边 是 非 零 的 。 假 设 没 有 粘 
贴 位 来 记 住 是 否 有 1 被 移 走 ， 我 们 会 假设 这 个 数 等 于 2.345000…00， 然 后 向 最 靠近 的 
偶数 合 入 得 到 2.34。 使 用 粘贴 位 记 住 这 个 数 是 大 于 2.345000…00 的 ， 我 们 倒 入 后 会 得 
到 2. 35。 


粘贴 位 : 同 保 护 位 和 会 入 位 一 样 用 于 使 入 的 位 ， 当 会 入 位 右边 有 非 零 的 数据 时 将 其 置 1。 


o 吕 精 解 PowerPC、SPARC64 、AMD SSE5 和 Intel AVX 体系 结构 提供 了 一 个 单独 的 指令 来 对 


2 


三 个 寄存 器 执行 乘法 和 加 法 操作 : a =a+ (bxc)。 很 明显 ， 因 为 这 个 操作 常用 ， 所 以 这 
条 指令 潜在 地 允许 更 高 的 浮 点 性 能 。 同 样 重要 的 是 替换 掉 了 两 次 会 入 一 一 在 乘法 后 和 在 加 
法 后 一 一 其 可 能 在 分 开 的 指令 中 出 现 ， 乘 加 指令 只 是 在 加 法 后 执行 一 次 全 入 。 一 次 使 入 步 
又 增加 了 乘 加 的 精度 。 这 样 的 一 次 倒 入 的 操作 称 为 混合 乘 加 (fused multiply add) 。 它 已 被 
加 入 修订 的 EE 754-2008 标准 里 ( 见 3.11 节 )。 





混合 乘 加 : 一 条 浮 点 指令 ， 其 执行 一 次 乘法 和 一 次 加 法 ， 但 只 在 加 法 后 执行 一 次 舍 入 。 


3.5.6 小 结 


下 面 的 重点 再 次 强调 了 第 2 章 中 存储 程序 的 概念 ; 不 能 仅仅 看 看 数据 位 就 决定 信息 的 含 


义 ， 因 为 即使 是 相同 的 位 也 代表 了 不 同 的 目标 。 这 一 节 给 出 的 计算 机 算术 是 有 限 精度 的 ， 因 此 
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和 自然 的 算术 不 同 。 例 如 ，IEEE 754 的 标准 浮 点 表示 为 

(—1)” x (1 + Fraction) x 2 Pe" Bie) 
几乎 总 是 一 个 实数 的 近似 。 计 算 机 系统 必须 小 心 弥合 计算 机 算术 和 真实 世界 的 算术 之 间 的 差 
距 ， 而 程序 员 有 时 也 需要 小 心 这 种 近似 值 的 含义 。 


回 , 重点 ”位 模式 并 没有 内 在 的 含义 ， 它 们 可 能 表示 有 符号 整数 、 无 符号 整数 、 浮 点 数 和 指令 
等 。 具 体 代 表 什 么 意思 要 看 指令 对 该 字 的 哪些 位 进行 操作 。 
ww 因此 限制 了 其 
精度 ; 计算 的 数字 有 可 能 太 大 或 太 小 而 无 法 在 一 个 字 中 表示 。 程 序 员 必须 记 住 这 些 限制 并 
相应 地 编程 。 


ER 



































addu, addiu, subu, mult, div, AND, ANDi, OR, ORi, 
int lw,Ssw,1ui 
NOR,slt,slti 
， ， addu, addiu, subu, multu, divu, AND, ANDi, OR, ORi, 
Unsigned int = lw,sw,1lui 
NOR,sltu,sltiu 
add, addi, sub, mult, div, AND, ANDi, OR, ORi, NOR, 
char = dbsh; lui ， 
slt,slti 
， addu,addiu, subu,multu, divu, AND, ANDi, OR, ORi, 
= char lhssh,1lui 
| NOR,sltu,sltiu 
float float lwcl ,swcl add. s,sub. s,mult. s,div.s,c.eq.s,c.1lt.s,c.le.s 
| double double ls Gms dd add. d,sub. d,mult. d,div.d,c. eq.d,c.1t.d,c. le.d | 














国 ! 硬件 /软件 接口 在 上 一 章 ， 我 们 提出 了 编程 语言 C 的 存储 分 类 ( 见 2.7 节 的 硬件 /软件 接 
口 部 分 ) 。 上 表 给 出 了 一 些 C 和 Java 的 数据 类 型 、MIPS 数据 传送 指令 ， 以 及 对 出 现在 第 2 
章 和 本 章 的 那些 数据 类 型 的 操作 指令 。 注 意 Java 省 略 了 无 符号 整数 。 


车 ] 小 测验 

假设 有 一 个 16 位 的 IEEE 754-2008 浮 点 格式 ， 其 中 有 5 位 指数 位 。 那 么 它 可 能 表示 的 数 的 
范围 是 多 少 ? 

1. 1. 0000 0000 00 x2° 到 1.1111 1111 11 x2”, 0 


2. +1.000000000x2-* 到 1.1111 1111 1x2*”, +0, +%, NaN 
3. +1.0000 000000x2* 到 +1.1111 1111 11 x2”, +0, +%, NaN 
4. +1.0000 0000 00 x2-5 到 1.1111 1111 11 x2", +0, +%, NaN 


邯 ] 精 解 为 了 进行 可 能 包含 NaN 的 比较 ，IEEE 754 标准 包含 了 有 序 和 无 序 作为 比较 的 选项 。 

因此 ， 完 整 的 MIPS 指令 集 有 许多 用 于 比较 的 指令 来 支持 NaN。( Java 不 支持 无 序 比较 。) 

为 了 从 一 次 浮 点 操作 中 最 大 限度 地 获得 精度 ， 标 准 允许 一 些 数 以 非 规格 化 的 形式 出 
现 。 标 准 允 许 有 非 规格 化 数 (也 称 为 非 规格 化 或 者 亚 规格 化 ) ， 目 的 是 使 0 和 最 小 规格 化 
数 之 间 的 间隙 更 小 。 在 指数 为 零 而 有 效 数 非 零 时 ， 人 允许 一 个 有 效 数 逐 步 变 小 直到 0， 称 为 
逐步 下 溢 (gradual underflow)。 例 如 ， 最 小 的 正 的 单 精度 规格 化 数 为 

1. 0000 0000 0000 0000 0000 000, x 2-™ 
而 最 小 的 单 精度 非 规格 化 数 为 
0. 0000 0000 0000 0000 0000 001, x 2 , 即 1.0, x2™” 


对 于 双 精 度 ， 非 规格 化 间隙 为 从 1 0， X2 -1022 到 1. 0， x2-104 ， 
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对 于 想 建立 一 个 快速 浮 点 单元 的 设计 者 来 说 ， 可 能 偶尔 出 现 的 非 规格 化 源 操 作 数 是 一 
件 令 人 头疼 的 事情 。 因 此 ， 许 多 计算 机 在 源 操 作 数 为 非 规格 化 数 时 产生 异常 ， 让 软件 来 处 
理 相 应 的 操作 。 尽 管 软件 执行 可 以 完美 地 处 理 ， 但 它们 低 效 的 表现 降低 了 非 规格 化 数 在 可 
移植 的 浮 点 软件 中 的 受 欢 迎 程度 。 再 者 ， 如 果 程 序 员 并 不 期 望 得 到 非 规格 化 数 ， 他 们 所 写 
程序 的 执行 效率 之 低 也 许 会 令 他 们 感到 惊讶 。 


3.6 并 行 性 和 计算 机 算术 : 子 字 并 行 


由 于 每 台 桌 面 计 算 机 都 有 自己 的 图 形 显示 器 ， 因 此 ， 随 着 处 理 器 中 晶体 管 数量 的 增加 ， 用 
于 桌面 计算 机 的 微 处 理 器 不 可 避免 地 要 增加 支持 图 形 操作 的 功能 。 

许多 图 形 系统 最 初 都 是 用 8 位 数据 来 表示 三 种 基本 颜色 中 的 一 种 ， 外 加 8 位 数据 来 表示 像 
素 的 位 置 。 电 话 会 议 中 和 视频 游戏 中 使 用 的 扬声器 和 麦克 风 要 求 对 声音 进行 支持 。 音 频 采 样 需 
要 8 位 以 上 的 精度 ， 但 是 16 位 精度 已 经 足够 。 

每 种 处 理 器 对 于 字 节 或 半 字 都 有 特殊 的 支持 ， 从 而 使 得 在 存储 器 中 占据 较 少 的 空间 
( 见 2.9 节 )。 然 而 ,在 典型 的 整数 程序 中 ， 对 这 些 数据 类 型 的 算术 操作 非常 少 ， 因 此 几乎 不 文 
持 除 数据 传送 之 外 的 操作 。 设 计 师 们 发 现 许 多 视频 和 音频 应 用 中 通常 对 这 类 数据 的 向 量 做 相同 
的 操作 。 通 过 在 128 位 内 对 进位 链 进行 分 割 ， 处 理 器 可 以 同时 对 16 个 8 位 、8 个 16 位 、4 个 
32 位 或 2 个 64 位 的 运算 同时 进行 并 行 操作 。 对 加 法 器 进行 这 样 的 分 割 的 开销 非常 小 。 

将 这 种 在 一 个 宽 字 内 部 进行 的 并 行 操作 称 为 子 字 并 行 ， 也 可 将 其 称 为 更 加 通用 的 数据 级 并 
行 。 它 们 也 被 称 为 向 量 或 SIMD ( 单 指令 多 数据 ， 见 6. 6 节 ) 。 多 媒体 应 用 的 日 益 广泛 促使 支持 
易于 并 行 实现 窄 位 宽 操作 的 算术 运算 指令 的 出 现 。 

例如 ，ARM 在 NEON 多 媒体 指令 集中 增加 了 100 多 条 指令 来 支持 子 字 并 行 ， 这 些 扩展 的 
指令 可 以 在 ARMv7 或 ARMv8 中 实现 。NEON 中 增加 了 宽度 为 256 字 节 的 寄存 器 ， 它 们 可 以 当 
作 32 个 8 字 节 宽度 的 寄存 器 或 者 16 个 16 字 节 宽度 的 寄存 器 使 用 。 除 了 64 位 浮 点 数 之 外 ，NE- 
ON 支持 你 能 够 想到 的 任何 子 字数 据 类 型 。 

。 8 位 、16 位 、32 位 和 64 位 无 符号 整数 和 带 符号 整数 。 

。 32 位 浮 点 数 。 

图 3-19 给 出 了 NEON 基本 指令 的 总 结 。 


VLDR. F32 VADD. F32,VADD|L,W)} |S8,U8 ,S16,U16,S32,U32} VAND. 64, VAND. 128 
VSTR. F32 VSUB. F32, VSUB1|L,W} |S8,U8,S16,U16,S32,U32} VORR. 64, VORR. 128 | 
VLD11,2,3,4}, {18, 

116,B2| 





























VMUL. F32, VMULL | S8 ,U8 ,S16 ,U16 ,S32 ,U32 | VEOR. 64, VEOR. 128 ] 





图 3-19 子 字 并 行 的 ARM NEON 指令 总 结 。 使 用 大 括号 | | 表示 基本 操作 的 可 选 对 象 : |S8，U8，8| 
表示 8 位 有 符号 和 8 位 无 符号 整数 或 者 与 类 型 无 关 的 8 位 数据 ，16 个 这 些 类 型 的 数据 可 映射 为 
一 个 128 位 寄存 器 ;1S16，U16，16} 表示 16 位 有 符号 和 16 位 无 符号 整数 或 者 与 类 型 无 关 的 
16 位 数据 ，8 个 这 些 类 型 的 数据 可 映射 为 一 个 128 位 寄存 器 ; |532，U32，32| 表示 32 位 有 符 
号 和 32 位 无 符号 整数 或 者 与 类 型 无 关 的 32 位 数据 ，4 个 这 些 类 型 的 数据 可 映射 为 一 个 128 位 
寄存 器 ; |S64，U64，64| 表示 64 位 有 符号 和 64 位 无 符号 整数 或 者 与 类 型 无 关 的 64 位 数据 ， 
2 个 这 些 类 型 的 数据 可 映射 为 一 个 128 位 寄存 器 ; 1F321 表示 32 位 有 符号 或 无 符号 浮 点 数 ， 
4 个 这 种 类 型 的 数据 可 映射 为 一 个 128 位 寄存 器 ; 向 量 装载 (vector load) 把 一 个 n 元 的 结构 从 
存储 器 读 人 1 个 、2 个 、3 个 或 4 个 NEON 寄存 器 中 。 它 把 一 个 n 元 (element) 的 结构 装载 到 
一 个 线性 结构 中 ( 见 6.6 节 )， 寄存 器 中 没有 进行 装载 的 部 分 保持 不 变 。 向 量 存储 (vector 
store) 将 1 个 、 2 个 、 3 个 或 4 个 NEON 寄存 器 中 的 内 容 写 入 存储 器 中 的 一 个 结构 中 去 
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rT ET 
VST{1,2,3,4}, {18, 


VMOV. {18, 116, 132, 
F32] ,# imm VORN. 64, VORN. 128 


VMVN. {18, 116, 132, 
F32} ,# imm 













VMLA. F32, VMLAL{ S8 ,U8 ,S16 ,U16, S32,U32] 











VMLS. F32, VMLSL |{ S8 ,U8 ,S16,U16 ,S32,U32} 








VMAX. {S8,U8,S16,U16,S32,U32,F32)} VCEQ. {18,116 ,132,F32} 
















VCGE. |{S8, U8, S16, U16, S32, 
































VMOV. {164 ,1128} VMIN. {S8, U8,S16,U16,S32,U32,F32} | 2 
VMVN. {164,1128} VABS. | S8 ,S16 ,S32 ,F32 |} 了 S87 U8 O16 UI. 
LE. 
VNEG. { S8 ,S16 ,S32,F32]} | Be 
VSHL {S8, U8 ,S16 ,U16 ,S32 ,U32 ,S64 ,U64 } et $8, U8, S16, D165S32, 
VSHR. {S8 ,U8 ,S16,U16,S32,U32 ,S64,U64} VTST. {18,116,132} 











图 3-19 ( 续 ) 


加 | 精 解 除了 有 符号 和 无 符号 整数 外 ，ARM 还 包含 4 种 大 小 的 “定点 ”格式 ,分 别 是 18、I16、 
1I32 和 164, 16 个 18、8 个 116、4 个 132 或 2 个 164 可 以 映射 到 1 个 128 位 的 寄存 器 。 定 点 数 的 一 
部 分 是 尾数 〈 二 进 制 小 数 点 的 右边 ) ， 另 一 部 分 是 整数 〈 二 进 制 小 数 点 的 左边 ) 。 二 进 制 小 数 点 
的 位 置 在 软件 层面 上 可 见 。 许 多 ARM 处 理 器 没有 浮 点 硬件 ， 因 此 浮 点 操作 必须 使 用 库 例 程 来 
实现 。 定 点 算术 运算 要 比 软件 实现 的 库 例 程 快 得 多 ， 但 是 程序 员 需 要 做 更 多 的 工作 。 


3.7 实例: x86 中 流 处 理 SIMD 扩展 和 高 级 向 量 扩展 


最 初 ，x86 中 的 MMX (MultiMedia eXtension， 多 媒体 扩展 ) 指令 和 SSE (Streaming SIMD Ex- 
tension ， 流 处 理 SIMD 扩展 ) 指令 与 ARM NEON 中 的 操作 类 似 。 第 2 章 中 提 到 在 2001 年 Intel 在 
其 体系 结构 中 增加 了 144 条 指令 作为 SSE2 的 一 部 分 ， 包括 了 双 精 度 浮 点 寄存 器 和 操作 。 它 包含 了 
可 用 作 浮 点 操作 数 的 8 个 64 位 寄存 器 。AMD 将 寄存 器 数量 扩展 到 16 个 ， 作 为 AMD64 的 一 部 分 ， 
称 之 为 XMM ， 这 些 寄存 器 被 Intel 重新 称 为 EM64T。 图 3-20 总 结 了 SSE 和 SSE2 指令 。 


数据 传送 
ADD{SS/PS/SD/PD} xmm, mem/xmm CMP {SS/PS/SD/PD)} 


SUB {SS/PS/SD/PD} xmm, mem/xmm 
MUL {SS/PS/SD/PD} xmm, mem/xmm 
DIV {SS/PS/SD/PD} xmm, mem/xmm 


Me 
| 
| 
SORT {SS/PS/SD/PD} mem/xmm | 
ed 
MIN {SS/PS/SD/PD} mem/xmm [| 
图 3-20 ”x86 的 SSE/SSE2 浮 点 指令 。xmm 是 指 一 个 128 位 SSE2 寄存 器 操作 数 ; mem/xmm 是 指 该 操作 数 
要 么 是 一 个 存储 器 操作 数 ， 要 么 是 一 个 SSE2 寄存 器 操作 数 。 用 大 括号 {| 表示 基本 操作 可 选 
择 的 类 型 ; |SS| 表示 标量 的 单 精度 浮 点 数 ， 或 128 位 SSE2 寄存 器 中 的 1 个 32 位 操作 数 ; 
1PS| 表示 组 合 的 单 精度 浮 点 数 ， 或 者 128 位 SSE2 寄存 器 中 的 4 个 32 位 操作 数 ; {SD| 表示 标 
量 双 精 度 浮 点 数 ， 或 128 位 寄存 器 中 的 一 个 64 位 操作 数 ; |PD| 表示 组 合 的 双 精 度 浮 点 数 ， 或 
者 128 位 SSE2 寄存 器 中 的 2 个 64 位 操作 数 ; | A| 表示 存储 器 中 对 齐 的 128 位 操作 数 ; 1U| 表 
示 存 储 器 中 不 对 齐 的 128 位 操作 数 ; 1 H|} 表示 传送 128 位 操作 数 的 高 半 部 分 ; {LI 表示 传送 

128 位 操作 数 的 低 半 部 分 














MOV{A/U} {SS/PS/SD/PD} 
xmm, mem/xmm 











MOV {H/L} {PS/PD} 
xmm, mem/xmm 
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在 一 个 寄存 器 中 ， 除 了 能 够 存放 一 个 单 精 度 或 双 精 度数 之 外 ，Intel 允许 将 多 个 操作 数组 合 
在 一 起 放 在 一 个 128 位 SSE2 寄存 器 中 : 4 个 单 精度 或 2 个 双 精 精度 数 。 因 此 ，SSE2 的 16 个 浮 
点 寄存 器 实际 上 是 128 位 宽 。 如 果 操 作 数 能 够 在 存储 器 中 组 织 为 128 位 对 齐 的 数据 ,， 则 每 条 
128 位 的 数据 传送 指令 可 以 装载 (load) 或 保存 (store) 多 个 操作 数 。 这 种 组 合 的 浮 点 数 格式 
由 可 以 并 行进 行 4 个 单 精 度 (PS) 或 2 个 双 精 度 (PD) 数 运算 的 算术 操作 支持 。 

2011 年 ，Intel 使 用 高 级 向 量 扩 展 (advanced vector extension，AVX) 将 寄存 器 宽度 再 次 加 
倍 ， 现 在 称 之 为 YMM。 因 此 ,现在 单 精 度 操作 可 以 指定 8 个 32 位 浮 点 运算 或 4 个 64 位 浮 点 运 
算 。 现 在 ，SSE 和 SSE2 指令 可 以 对 YMM 寄存 器 的 低 128 位 进行 操作 。 因 此 ,为 了 使 用 128 位 
和 256 位 操作 ， 在 SSE2 汇编 指令 操作 码 前 加 上 前 级 字母 v (表示 向 量 )， 然 后 使 用 YMM 寄存 
器 名 字 蔡 代 XMM 寄存 器 名 字 。 例 如 ， 进 行 2 个 64 位 浮 点 加 法 操作 的 SSE2 指令 。 

addpd  %xmmo ，%xmm4 
变 为 

vaddpd  %ymmo ，%ymm4 


该 指令 进行 4 个 64 位 浮 点 加 法 。 
图!| 精 解 AVX 也 对 x86 增加 了 3 地 址 指令 。 例 如 ，vaddpd 可 以 有 如 下 形式 : 


vaddpd %ymmo ，%ymm1l ，%ymm4 # %ymm4 = %ymml + %ymm2 
而 标准 的 2 地 址 指令 为 : 

addpd  %xmmoO ，%xmm4 # %xmm4 = %xmm4 + %xmmoO 

与 MIPS 不 同 ，x86 的 目标 操作 数位 于 右边 。3 地 址 可 以 减少 计算 所 需 的 寄存 器 数量 和 
昌 令 数量 。 ” 


3.8 加 速 : 子 字 并 行 和 矩阵 乘法 


为 了 说 明子 字 并 行 对 性 能 的 影响 ， 我 们 将 在 Intel Core i7 上 在 有 无 AVX 的 情况 下 运行 相同 
的 代码 。 图 3-21 给 出 了 一 个 用 C 语言 写 的 矩阵 乘法 的 代码 ， 它 还 没有 进行 优化 。 就 像 我 们 在 
3.5 节 看 到 的 ， 该 程序 通常 称 为 DCEMM ， 表 示 双 精度 通用 和 矩阵 乘法 。 从 该 版 本 出 发 ,我 们 增 
加 一 个 新 的 称 为 “加 速 ”的 小 节 来 说 明 在 底层 硬件 的 基础 上 使 用 适应 的 软件 的 性 能 提升 。 这 
里 的 底层 硬件 是 Intel Core i7 的 Sandy Bridge。 在 第 3、4、5、6 章 中 ， 该 小 节 将 逐步 使 用 每 章 介 
绍 的 思想 来 提高 DGEMM 的 性 能 。 

图 3-22 给 出 了 图 3-21 中 内 循环 的 x86 汇编 代码 。 以 v 开头 的 5 条 浮 点 指令 与 AVX 指令 类 
似 ， 但 是 需要 注意 的 是 它们 使 用 的 是 XMM 寄存 器 ， 而 不 是 YMM 寄存 器 ， 另 外 它们 在 指令 名 
字 里 包 含 了 sd， 代表 着 向 量 双 精 度 。 我 们 将 对 子 字 并 行 指令 作 简 要 定义 。 

由 于 编译 程序 员 最 终 能 够 使 用 x86 的 AVX 指令 生成 高 质量 代码 ， 因 此 现在 我 们 必须 使 用 C 
循环 体 的 属性 ， 通 过 “欺骗 ”的 方式 ， 告 诉 编译 器 如 何 生 成 高 质量 的 代码 。 图 3-23 是 图 3-21 
的 加 强 版 ， 给 出 了 Gnu C 编译 器 产生 的 AVX 代码 。 图 3-24 给 出 了 带 注释 的 x86 代码 ， 它 是 在 
编译 时 使 用 gcc-03 级 优化 选项 的 输出 。 

图 3-23 第 6 行 的 声明 使 用 了 _m256da 的 数据 类 型 ， 用 来 告诉 编译 器 变量 将 保存 4 个 双 精 度 
浮 点 值 。 第 6 行 的 内 蕴 函 数 _ mm256 loas _pd( ) 使 用 AVX 指令 从 矩阵 c 中 并 行 的 (_pd) 取 出 
4 个 双 精 度 浮 点 数 到 c0。 第 6 行 的 地 址 计算 c+i +j* n 表示 元 素 CL[i +j* n]。 与 之 相应 的 


日 原文 为 “乘法 ”。 一 一 译 者 注 
日 ”原文 为 “乘法 ”。 一 一 译 者 注 


是 在 第 11 行 中 的 最 后 一 步 ， 使 用 内 列 函 数 mm256 store pd( ) 将 c0 中 的 4 个 双 精 度 浮 点 数 
保存 到 和 矩阵 Cc 中 。 由 于 在 每 次 迭代 时 处 理 4 个 元 素 , 第 4 行 中 的 外 层 for 循环 的 循环 变量 i 做 
加 4 操作， 而 不 像 图 3-21 中 第 3 行 的 加 1 操作 。 

. Vvoid dgemm (int n, double* A, double* B, double* C) 


{ 


for int 1 » 1 <& Ts tti) 


for (int j ;jj < ns ++j) 
| 
double cij = GLi#j*n]; /* cij = CG[Lij[j] */ 


for( int Kk = 0; k < n; k++ ) 
cij += A[i+k*n] * BLk+j*n]; /* cij += ALi]J[kJ*B[kI[Cj] */ 
CE 二 本 nd = Cijs /J CETJEIY.S eij 村/ 





图 3-21 未 经 优化 的 双 精 度 甜 阵 乘 法 的 C 语言 版 本 ， 称 之 为 双 精 度 通 用 和 矩阵 乘法 (GEMM) 。 因 为 我 们 
通过 参数 n 传递 矩阵 的 维 数 ， 该 版 本 的 DGEMM 使 用 的 是 矩阵 C、&RA、B 的 一 维 版 本 ， 并 且 强 调 
使 用 算术 运算 来 获得 更 好 的 性 能 ， 而 不 像 3. 5 节 中 使 用 直观 的 二 维 阵列 。 注 释 提醒 我 们 使 用 这 
种 更 加 直观 的 符号 


vmovsd (%rl10) ,%xmmO # Load 1 element of C into %xmm0 
mov %rsi,%rcx # register %rcx = %rsi 

xor %eax,%eax # register %eax 

vmovsd (%rcx),%xmml # Load 1 element of B into %xmml 
add %r9,%rcx # register %rcx = %rcx + %r9 
vmulsd (%r8,%rax,8),%xmml,%xmml # Multiply %xmml, element of A 
add $0x1,%rax # register %rax = %rax + 1 

cmp %eax, %edi # compare %eax to %edi 

vaddsd %xmml,%xmm0,%xmmO 上 Add %xmml, %xmm0 


mm 上 wm 


上 
ey 


,9 30 <dgemm+0x30> jump if %eax > %edi 
. add $0x1,%rlld register %rll = %rll + 1 


fh 
js 


. vmovsd %xmm0,(%r10) Store %xmm0 into C element 


Pn 
nD 





图 3-22 图 3-21 中 蔡 套 循环 体 使 用 优化 编译 后 对 应 的 x86 汇编 语言 代码 。 虽 然 只 是 64 位 数据 ， 编 译 器 
使 用 了 AVX 版 本 指令 ， 而 不 是 SSE2， 因 此 每 条 指令 可 以 使 用 3 个 地 址 而 不 是 2 个 地 址 
( 见 3.7 节 的 精 解 ) 


在 循环 体内 部 ， 首 先 在 第 9 行 又 一 次 使 用 mm256_ loas _pd( ) 取 人 A 的 4 个 元 素 。 为 了 
将 这 些 元 素 与 B 的 一 个 元 素 相 乘 ， 第 10 行使 用 了 内 荀 函数 mm256 broadcast_sd( ) ， 它 将 标 
量 双 精 度数 复制 为 相同 的 4 份 一 一 在 这 种 情况 下 ，B 的 一 个 元 素 在 一 个 YMM 寄存 器 中 。 在 第 9 
行 中 ， 使 用 mm256 mul _pd( ) 同时 乘 4 个 双 精 度 结 果 。 最 后 ， 第 8 行 的 mm256_add pad() 
将 4 个 乘积 加 到 c0 的 4 个 和 上 。 

3-24 给 出 了 编译 器 生成 的 内 循环 体 的 x86 代码 。 可 以 看 到 5 条 AVX 指令 一 一 它们 全 部 
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以 v 开 头 ， 并 且 其 中 4 条 使 用 了 pa 表示 并 行 的 双 精 度 一 一 与 前 面 提 到 的 C 内 在 属性 一 致 。 代 
码 与 图 3-22 中 所 示 代 码 非常 类 似 : 都 使 用 12 条 指令 ， 整 数 指令 几乎 相同 (但 使 用 不 同 的 寄存 
器 ) ， 浮 点 指令 的 不 同 之 处 仅仅 在 于 使 用 XMM 寄存 器 的 标量 双 精 度 ( sd) 和 使 用 YMM 寄存 
器 的 并 行 双 精度 (pd)。 不 同 之 处 在 于 图 3-24 的 第 4 行 ，A 中 每 个 元 素 必 须 与 B 中 每 个 元 素 相 
乘 。 一 种 解决 方法 是 将 64 位 B 元 素 的 4 个 相同 的 备份 依次 放 和 人 256 位 的 YMM 寄存 器 中 ， 正 如 
vbroadcastsd 指令 所 做 的 工作 。 

对 于 32 乘 32 的 和 矩阵， 图 3-21 中 未 优化 的 DGEMM 在 一 个 2.6GHz 的 Intel Core i7 (Sandy 
Bridge) 的 一 个 核 上 运行 时 性 能 为 1.7GFLOPS (每 秒 浮 点 操作 次 数 ) 。 图 3-23 中 的 优化 代码 的 
性 能 为 6.4GFLPOS。 由 于 使 用 了 子 字 并 行 ， 在 许多 操作 中 可 以 获得 4 倍 的 加 速 ， 因 此 AVX 版 
本 要 比 原始 版 本 快 3. 85 倍 ， 性 能 增加 了 接近 4 倍 。 


Ls 
2 
$3。 
4. 
S:, 
6. 
yi 
8 
9， 


#include <x86intrin.h> 


{ 
for ( int i 六 


for ( int j = 0; 


for( int k = 0; k < ni 


id=4 ) 
ee 
__m256d c0 = _mm256_load_pd(C+i+j*n); /* c0 = C[Li]J[j] */ 


void dgemm (int n, double* A, double* B, double* C) 


Kt 3 
c0 = _mm256_add_pd(c0, /* co += A[i][k]xB[k][j] */ 
_mm256_mul_pd(_mm256_10ad_pd(A+i+kxn) ， 


_mm256_broadcast_sd(B+k+j*n))); 


_mm256_store_pd(C+i+j*n, c0); /* C[ij[j] = 








图 3-23 


CQ 7 


DGEMM 的 优化 C 版 本 , 使 用 C 的 循环 体 属性 为 x86 生成 AVX 子 字 并 行 指 令 。 


图 3-24 显 示 了 内 循环 编译 后 的 汇编 语言 





ji 
请 OO 


MD Nm om OO PP -~ 


. jne 
. add 
12. 


vmovapd (%r1ll),%ymmO 
mov %rbx,%rcx 
xor %eaX,%eax 


vbroadcastsd (%rax,%r8,1),%ymml 


add $0x8,%rax 

vmulpd (%rcx),%ymml,%ymml 
add %r9,%rcx 

cmp %r10,%rax 


vaddpd %ymml ,%ymm0,%ymmO0 
50 <dgemm+0x50> 
$0x1,%esi 

vmovapd %ymm0,(%rll) 





图 3-24 


# 
# 
# 
# 
# 
. 
j 


亲 和 革 和 填 秆 着 注入 


Load 4 elements of C into %ymm0 
%rbx 


register %eax = 0 


register %rcx = 


Make 4 copies of B etlement 
register %rax = %rax+ 8 
Parallel mul %ymml,4 A elements 
register %rcx = %rcx + %r9 
compare %r10 to %rax 
Parallel add %ymml, %ymm0 
jump if not %rl0 != %rax 
register % esi =% esi+]1 


Store %ymm0 into 4 C elements 


编译 图 3-23 中 优化 的 C 代码 生成 的 衬 套 循环 体 的 x86 汇编 语言 。 注 意 与 图 3-22 相同 ， 区 别 仅 在 


于 5 个 浮 点 操作 现在 使 用 YMM 寄存 器 和 pd 版 本 的 指令 来 进行 并 行 双 精度 操作 ， 而 不 是 sd 版 本 
的 标量 双 精 度 
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加 精 解 同 1.6 节 中 的 精 解 相 同 ，Intel 提供 了 Turbo 模式 ， 暂 时 运行 在 较 高 时 钟 频率 下 ， 直 
到 芯片 过 热 。Intel Core i (Sandy Bridge) 在 Turbo 模式 可 将 频率 从 2.6GHz 增加 到 
3.3GHz。 以 上 的 结果 是 在 关闭 Turbo 模式 下 获得 的 。 如 果 将 Turbo 模式 打开 ， 由 于 时 钟 频 
率 提高 了 3.3/2.6=1.27 倍 ， 未 优化 的 DGEMM 性 能 将 提升 为 2.1GFLOPS，AVX 性 能 将 提 
升 为 8. 1GFLOPS。 当 一 个 八 核 芯片 中 只 使 用 一 个 核 时 ，Turbo 模式 会 很 好 的 工作 ， 因 为 在 
这 种 情况 下 ， 单 个 核 可 以 使 用 比 共享 情况 下 更 多 的 功 耗 。 


3.9” 雇 误 与 陷阱 


数学 可 以 被 定义 为 这 样 的 学 科 ， 我 们 绝 不 知道 我 们 在 读 论 什么 以 及 我 们 所 读 论 的 是 
下 正确 ， 
一 一 伯 兰 特 ， 罗素 ,《 近 来 关于 数学 原理 的 发 言 )，1901 


算术 中 常见 的 廖 误 与 陷阱 通常 是 由 计算 机 算术 的 有 限 精度 和 自然 算术 的 无 限 精度 之 间 的 差 
异 引 起 的 。 
雇 误 : 正如 整数 乘法 中 左 移 指令 可 以 代替 与 2 的 辕 次 方 数 相 乘 一 样 ， 右 移 指令 也 可 以 代替 
与 2 的 早 次 方 数 相 除 。 
回忆 一 下 二 进 制 数 x， 其 中 xi 代表 第 i 位 ， 有 
+ (x3 X23) + (x2 x2) + (xl x2') + (x0 x2°) 
将 x 右 移 位 看 起 来 似乎 是 和 被 2" 相 除 相同 。” 事实 上 ， 对 于 无 符号 整数 确实 如 此 。 问 题 
出 在 有 符号 整数 上 。 例 如 ,假设 我 们 用 -5% 除 以 4,。， 商 就 是 -1,。。 -5 的 补 码 形式 是 
1111 1111 1111 1111 1111 1111 1111 1011, 
根据 这 个 雇 误 ， 右 移 2 位 就 是 被 4o 除 (2 ): 
O011 1111 1111 1111 1111 1111 1111 1110， 
由 于 符号 位 上 是 0， 所 以 结果 很 明显 是 错 的 。 右 移 后 的 值 实际 是 1 073 741 822,o 而 不 是 - lo。 
一 种 解决 办 法 是 算术 右 移 时 ， 进 行 符 号 位 扩展 而 不 是 移 人 0。 -Si 算术 右 移 2 位 得 到 
1111 1111 1111 1111 1111 1111 1111 1110， 
结果 是 -2 而 不 是 -1,。， 昌 然 很 接近 ,但 依然 不 正确 。 
陷阱 : 浮 点 加 法 是 不 能 使 用 结合 律 的 。 
结合 律 适用 于 一 系列 整 型 的 二 进 制 补 码 加 法 ， 即 使 在 计算 过 程 中 发 生 溢出 。 然 而 ， 因 为 浮 
点 数 是 实数 的 近似 表示 ， 且 计算 机 算术 精度 有 限 ， 结 合 律 不 能 适用 于 浮 点 数 。 假 定 浮 点 数 可 以 
表示 一 个 很 大 的 数 的 范围 ， 当 两 个 不 同 符号 的 大 数 与 一 个 小 数 相 加 时 就 会 发 生 问 题 。 例 如 ， 对 于 
c+(a+b)=(c+a)+b, 假设 c= -1.5, x10”, a=1.5, x10”, b=1.0, 它们 都 是 单 精度 数 。 
c+(a+b)=-1.5, x10* + (1.5, x10™ +1.0) 
=—1.5, x10* +1.5, x10™ 


= 0.0 

(c+a) +b= (-1.5, x10™ +1.5, x10™)+1.0 
= (0.0),, +1.0 
=1.0 


由 于 浮 点 数 精 度 有 限 且 结 果 是 实数 结果 的 近似 值 ，1. 5,。x 10 远 远 大 于 1. 0,。， 因 此 1. 5,。 x 
10”+1.0 仍然 是 1.5,。x10”， 这 就 是 为 什么 <、a、4b 的 和 根据 浮 点 加 法 的 计算 顺序 不 同 有 0.0 





加 ”此 处 原 书 中 zx 为 C， 我 们 认为 此 处 * 更 合适 ， 因 为 后 边 表示 用 xi。 原 书 中 、x?” 有 误 ，3、2 不 应 为 上 角 。 
2?” 也 有 误 ，n 也 不 应 为 上 角 。 一 一 译 者 注 
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和 1.0 两 种 结果 ， 所 以 c+ (a+b) 了 关 (c+a) +b5， 因 此 浮 点 加 法 不 能 使 用 结合 律 。 

廖 误 : 并 行 执行 策略 不 但 适用 于 整 型 数据 类 型 ， 同 样 也 适用 于 浮 点 数据 类 型 。 

一 般 情况 下 ， 首 先 编写 串 行 运行 的 程序 ， 然 后 再 编写 并 行 运行 的 程序 ， 这 就 自然 产生 一 个 
问题 :“ 两 个 版 本 的 程序 能 否 得 到 相同 的 结果 ?” 如 果 是 否定 的 答案 ,那么 你 就 得 推断 并 行程 
序 中 有 一 个 需要 消除 的 bug。 

该 方法 假定 将 串 行 结构 转化 为 并 行 结构 时 ， 计 算 机 算术 不 会 影响 计算 结果 。 这 就 是 说 ， 如 
果 要 将 100 万 个 数 相 加 ， 无 论 使 用 1 个 处 理 器 还 是 使 用 100 个 处 理 器 应 该 得 到 相同 的 结果 。 该 
假定 适用 于 二 进 制 补 码 整 数 ， 因 为 整数 加 法 可 结合 。 然 而 ， 因 为 浮 点 加 法 不 能 结合 ， 所 以 该 假 
定 不 适用 。 

这 个 廖 误 有 一 个 更 加 令 人 烦恼 的 情况 在 并 行 机 上 可 能 发 生 。 并 行 机 上 操作 系统 调度 器 会 根 
据 并 行程 序 的 运行 情况 来 使 用 不 同 数目 的 处 理 器 。 对 并 行 无 意识 的 程序 员 可 能 会 因为 程序 每 次 
运行 结果 总 有 些 不 同 而 苦恼 ， 即 使 是 相同 的 代码 和 输入 ， 这 是 因为 每 次 运行 使 用 不 同 数目 的 处 
理 器 可 能 导致 浮 点 求 和 以 不 同 的 顺序 进行 。 

在 这 个 困境 下 ， 写 并 行 代 码 并 使 用 了 浮 点 数 的 程序 员 需 要 验证 结果 是 否 可 信 ， 即 便 结果 可 
能 与 顺序 执行 的 结果 不 一 致 。 处 理 这 个 问题 的 领域 称 为 数值 分 析 ， 关 于 该 问题 本 身 就 可 以 写 一 
本 教科 书 。 这 也 是 像 LAPACK 和 SCALAPAK 这 样 的 数学 库 流行 的 一 个 原因 。 这 些 数 学 库 在 顺 
序 和 并 行 执行 下 都 被 验证 是 有 效 的 。 

陷阱 : MIPS 指令 addiu (无 符号 立即 数 加 ) 会 对 16 位 立即 数 域 进行 符号 扩展 。 

当 我 们 不 关心 上 洲 时 ，addiu 经 常用 于 将 常数 和 有 符号 整数 相 加 。 由 于 MIPS 没有 立即 数 
减 的 指令 ， 所 以 MIPS 体系 结构 设计 者 决定 对 该 指令 的 立即 数 域 进行 符号 扩展 ， 以 支持 立即 数 
为 负数 时 的 需要 。 

廖 误 : 只 有 理论 数学 家 才 会 关心 浮 点 精度 。 

1994 年 11 月 的 报纸 新 闻 头 条 证 明了 这 个 观点 是 错误 的 〈 见 图 3-25)。 下 面 的 故事 在 标题 
的 后 面 。 


PO ds Hogwn you 村 = 交 


Pari 1 Bg td Jd pe 


pe ep Mer gt 
i ol 0 





图 3-25 1994 年 11 月 的 一 些 报刊 文章 ,包括 《纽约 时 代 》《 圣 何 塞 信使 报 》《 旧 金山 新 闻 》《 信 息 世 
界 》。Pentium 浮 点 bug 甚至 成 为 电视 节目 “David Letterman Late Show” 的 “十 大 新 闻 ”。In- 
tel 最 后 花 了 3 亿美 元 来 替换 掉 有 bug 的 芯 


Pentium 用 一 种 标准 的 浮 点 除 算法 每 步 生 成 多 个 商 位 ， 使 用 除数 的 最 高 几 位 和 被 除数 猜测 
商 的 下 面 2 位 。 这 个 猜测 是 利用 一 个 含 -2、-1、0、+1、+2 的 查找 表 。 猜 测 结果 和 除数 相 
乘 ， 然 后 从 余数 中 减 去 ， 获 得 新 的 余数 。 像 不 恢复 除法 一 样 ， 如 果 前 面 的 一 个 猜测 使 得 余数 太 
大 ， 部 分 余数 将 在 下 面 的 执行 中 进行 调整 。 

很 明显 ，Intel 认为 有 5 个 来 自 80486 查找 表 的 元 素 不 会 访问 到 ， 因 此 ， 他 们 在 Pentium 中 
优化 了 此 查找 表 ， 在 一 些 情况 下 返回 0 而 不 是 2。Intel 错 了 : 前 11 位 总 是 正确 的 ,但 错误 会 
尔 在 12 位 和 52 位 之 间 出 现 , 或 者 说 十 进 制 下 在 第 4 位 到 第 15 位 出 现 。 

弗吉尼亚 州 林 奇 伯 格 学 院 的 数学 家 托马斯 . 内 斯 里 (Thomas Nicely) 在 1994 年 9 月 发 现 
了 这 个 bug。 在 拨打 了 Intel 技术 支持 电话 但 没有 获得 官方 回应 后 ， 他 将 他 的 发 现 公布 在 了 因 特 
网 上 。 这 引发 了 商业 杂志 上 的 一 个 故事 ， 进 一 步 引 发 了 Intel 发 布 了 一 条 声明 。Intel 称 其 为 一 
个 “小 故障 ”， 仅 对 理论 数学 家 有 影响 ， 对 于 电子 制 表 软件 的 用 户 来 说 ， 该 缺陷 只 有 27 000 年 
才 会 发 生 一 次 。IBM 研究 院 很 快 提出 反对 ， 指 出 电子 制 表 软件 的 用 户 平均 每 24 天 就 能 遇 到 一 
次 这 样 的 错误 。 很 快 ，1994 年 12 月 21 日 ，Intel 发 布 了 如 下 声明 : 

我 们 Intel 对 最 近 发 布 的 Pentium 处 理 器 的 缺陷 处 理 真诚 地 道歉 。“Intel Inside’ 标记 的 含义 是 
痢 您 的 计算 机 拥有 一 颗 在 质量 和 性 能 上 首 慑 一 指 的 微 处 理 器 。 有 上 千 的 Intel 雇员 为 了 实现 这 个 目 
标 而 努力 工作 。 但是， 没有 一 款 微 处 理 器 是 完美 的 ，Intel 会 继续 相信 ， 从 技术 层面 上 来 讲 ， 任 何 
一 个 微小 的 问题 都 有 它 的 生命 期 。 尽 管 Intel 肯定 会 对 Pentium 处 理 器 的 这 个 版 本 负责 到 底 ， 但 我 
们 也 意识 到 了 用 户 的 关切 。 我们 要 解决 这 种 关切 。 任 何 消费 者 在 他 们 计算 机 生命 期 的 任何 时 刻 ， 
只 要 他 们 需要 ，Intel 会 免费 为 其 更 换 Pentium 处 理 器 ， 使 浮 点 除 缺 陷 得 到 纠正 。 

分 析 家 估计 这 次 召回 花费 了 Intel 5 亿美 元 ，Intel 的 工程 师 那 年 没有 拿 到 圣诞 节 奖 金 。 

这 次 事件 对 每 个 人 来 说 ， 都 有 一 些 值得 思考 的 地 方 。 如 果 在 1994 年 的 7 月 修复 了 这 个 bug 
会 少 花 多 少 钱 ? 修复 Intel 的 名 声 需 要 多 大 的 代价 ? 一 个 广泛 应 用 的 ， 像 微 处 理 器 这 样 的 产品 
出 现 bug， 其 相关 的 责任 有 多 么 重大 ? 


3. 10 ”本 章 小 结 


在 过 去 的 几 十 年 里 ， 计 算 机 算术 在 很 大 程度 上 被 标准 化 ， 这 极 大 地 增强 了 程序 的 可 移植 
性 。 在 当今 的 每 台 计 算 机 中 ， 都 有 二 进 制 补 码 整 数 算术 ， 如 果 它 支持 浮 点 ， 则 提供 IEEE 754 
二 进 制 浮 点 算术 。 

计算 机 算术 和 用 纸 和 笔 手 算 的 算术 不 同 的 地 方 是 受到 有 限 精 度 的 约束 。 这 个 限制 可 能 会 因 
为 计算 中 数 大 于 或 者 小 于 预先 的 设 定 而 导致 无 效 操作 。 这 种 异常 称 为 “上 溢 ” 或 “下 溢 ”， 可 
能 导致 异常 、 中 断 或 类 似 于 意外 的 子 程序 调用 。 第 4 章 和 第 5 章 更 详细 地 讨论 了 异常 。 

浮 点 算术 因为 是 对 实际 的 数字 的 近似 而 增加 了 挑战 性 ， 而 且 要 小 心 确保 所 选 的 计算 机 数 能 
最 接近 地 表示 实际 数字 。 不 精确 和 有 限 的 表达 带 来 的 挑战 是 数值 分 析 领 域 灵感 的 部 分 来 源 。 最 
近 转 向 并 行 性 的 趋势 使 得 数值 分 析 再 次 被 关注 起 来 ， 在 顺序 计算 机 上 是 完全 安全 的 东西 ， 在 并 
行 计算 机 里 需要 重新 考虑 ， 在 寻找 快速 的 算法 的 同时 也 要 有 正确 的 结果 。 
数据 级 并 行 ， 特 称 为 子 字 并 行为 算术 操作 密集 型 (无 论 是 整数 或 者 浮 点 数 操作 ) 性 能 
的 提高 开辟 了 一 条 简单 的 路 径 。 我 们 展示 了 可 以 使 用 同时 进行 4 个 浮 点 操作 的 指令 来 将 卸 阵 乘 
法 加 速 大 约 4 倍 。 

在 本 章 和 第 2 章 解释 计算 机 算术 时 ， 更 多 地 采用 MIPS 指令 集 进行 描述 。 容 易 混淆 的 一 点 
是 这 两 章 讲 到 的 指令 和 MIPS 芯片 中 执行 的 指令 以 及 MIPS 汇编 器 接受 的 指令 之 间 的 关系 。 
图 3-26 和 图 3-27 试图 讲 明白 这 点 。 

图 3-26 列 出 了 本 章 和 第 2 章 中 提 到 的 MIPS 指令 。 我 们 将 图 中 左边 的 指令 集 称 为 MIPS 核 


231 


232 


156 





第 3 章 





心 指令 。 在 右边 的 指令 称 为 MIPS 算术 核心 。 图 3-27 的 左边 是 包含 了 MIPS 处 理 器 执行 的 但 
图 3-26 中 没有 的 指令 。 我 们 将 全 部 的 硬件 指令 集 称 为 MIPS-32。 在 图 3-27 的 右边 是 被 编译 器 接 


受 但 不 属于 MIPS-32 的 指令 。 我 们 称 为 伪 MIPS 指令 。 





MIPS 核心 指令 MIPS 算术 核心 
R 乘 


















立即 数 加 法 
无 符号 加 法 

















忆 





除 





立即 数 无 符号 加 法 








无 符号 除 











减法 


















取 自 十 寄存 器 
















吨 | 一 | 古 | 友 | 到 | 一 | 万 | 一 





























取 立 即 数 的 高 位 





无 符号 减法 取 自 Lo 寄存 器 

与 取 自 系统 控制 寄存 器 (EPC) 

立即 数 与 apd 浮 点 单 精 度 加 add.s 

或 OR 浮 点 双 精 度 加 add.d | 
| 立即 数 或 ORi I 浮 点 单 精度 减 sub.s 

或 非 NOR R 浮 点 双 精 度 减 sub.d 

逻辑 左 移 sll R 浮 点 单 精度 乘 mul.s 

逻辑 右 移 srl R 浮 点 双 精 度 乘 mul.d 下 





浮 点 单 精度 除 
浮 点 双 精 度 除 



















取 无 符号 半 字 
存 半 字 sh 


取 无 符号 字 节 lbu 
sb 


存 字 节 














浮 点 单 精度 取 字 


浮 点 单 精度 存 字 
浮 点 双 精 度 取 字 
浮 点 双 精 度 存 字 


浮 点 真 则 跳 转 











链接 取 (原子 更 新 ) 


浮 点 假 则 跳 转 





条 件 存 (原子 更 新 ) 





浮 点 单 精 度 比 较 





男 ||| 二 | | 罗 | 轨 | 罗 | 轩 | 轩 | 轩 | 罗 | 罗 | 对 | 汪 | 罗 | 思 





相等 则 跳 转 
不 相等 则 跳 转 









(x=eq,neq,lt,1le,gt,ge) 





浮 点 双 精 度 比 较 













小 于 则 置 位 
小 于 立即 数 则 置 位 
无 符号 比较 ， 小 于 则 置 位 

无 符号 比较 ， 小 于 立即 数 则 置 位 


















图 3-26 MIPS 指令 集 。 本 书 集中 介绍 左 列 的 指令 。 这 个 信息 也 可 以 在 MIPS 参考 数据 卡 的 第 1 列 和 


第 2 列 里 找到 


图 3-28 给 出 了 SPEC CPU2006 整数 和 浮 点 基准 测试 程序 中 MIPS 指令 的 使 用 率 。 所 有 列 出 


来 的 指令 至 少 占 执行 指令 的 0.2% 。 


注意 ， 尽 管 程序 员 和 编译 器 编写 人 员 可 能 为 了 更 多 的 选项 而 使 用 MIPS-32，MIPS 核心 指令 
主宰 了 SPEC CPU2006 整数 程序 ， 而 整数 核心 以 及 算术 核心 主 宁 了 SPEC CPU2006 浮 点 程序 ， 


(x=eq,neq,l1t,1e,gt,ge) 











正如 下 表 所 列 。 
MIPS 核心 98% 31% 
MIPS 算术 核心 2% 66% 
剩余 的 MIPS-32 0% 3% 
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求 余 (signed 或 者 uns. ) 
取 立 即 数 


取 地 址 
存 双 字 



































零 则 移 
非 零 则 移 
乘 和 加 (S 或 uns. ) 
乘 和 减 (S 或 uns. ) 
大 于 等 于 零 则 跳 转 并 链接 
小 于 零 则 跳 转 并 链接 
跳 转 并 链接 寄存 器 

















































与 零 近 似 比较 并 跳 转 
































(x=1lt,le,gt,ge) | | 
与 寄存 器 值 近似 比较 并 跳 转 | | 
与 寄存 器 值 比 较 并 自 陷 | R | 
与 立即 数 比较 并 自 陷 | 1 | 
(x=eq,neq,lt,le,gt,ge) | 
异常 返回 | R | 
系统 调用 ra 
中 断 (引起 异常 ) lbreak | I | 
| 人 学 点 移 至 整数 [mfcl | R | 
| 人 整数 移 至 滔 点 mtcl | R 
movf | R 
| 如 果 零 则 浮 点 移 (s 或 者 ) |movzf | R | 
| 如 果 非 零 则 浮 点 移 〈s 或 者 db) [movnf | R | 
| 浮 点 平方 根 (s 或 者 9) |sartf | R 
| 浮 点 绝对 值 (s 或 才 ) |absf | R | 
浮 点 变 号 (s 或 者 d) Inegf | R | 
| 浮 点 转换 (w、s 或 者 ) [cvtff | R | 
| 浮 点 比较 (s 或 者 ) |exnf | R | 





图 3-27 保留 的 MIPS-32 和 伪 MIPS 指令 集 。/ 代 表单 (s) 或 者 (d) 精度 浮 点 指令 ，s 代表 有 符号 和 无 
符号 (u) 版 本 。MIPS- 32 也 有 浮 点 指令 ,包括 乘 和 加 / 减 (madd.f/msub.f)、 向 上 舍 入 
(ceil./)、 截 断 (trunc./)、 舍 人 (round.f) 和 倒数 (recip.f)。 下 划 线 表示 这 个 字母 表 
示 数 据 类 型 
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MIPS 核心 指令 Le 






























加 法 0.0% | 0.0% 浮 点 双 精 度 加 add.d | 0.0% |10.6% 

立即 数 加 法 addi | 0.0% | 0.0% 浮 点 双 精 度 减 sub.d | 0.0% |4.9% 

;符号 加 法 addu | 5.2% | 3.5% || ” 浮 点 双 精度 乘 mul.d | 0.0% |15.0% 

立即 数 无 符号 加 法 addiu | 9.0% | 7.2% || ” 浮 点 双 精 度 除 | div.d | 0.0% |0.2% | 








2.2% | 0.6% || ” 浮 点 单 精度 加 
0.2% | 0.1% 浮 点 单 精 度 减 


add.s | 0.0% |1.5% | 










































































0.7% 
4.0% | 1.2% 
1.0% | 0.2% 
0.4% | 0.2% 
4.4% | 1.9% 
1.1% | 0.5% 
取 3.3% | 0.5% 浮 点 真 则 跳 转 
贱 字 lw ”|18.6% | 5.8% || ” 浮 点 假 则 跳 转 
存 字 sw | 7.6% 2.0% | 浮 点 双 精 度 比 较 
取 字 节 lbu | 3.7% | 0.1% 乘 
让 字 节 sb 0.6% | 0.0% 算术 右 移 sra 0.5% |0.3% | 
由 等 则 跳 转 〈o) beq 8.6% | 2.2% 取 半 字 lhu 1.3% |0.0% | 
相等 则 跳 转 (0) bne 8.4% | 1.4% 存 半 字 sh 0.1% |0.0% | 





跳 转 并 链接 jal 0.2% 
寄存 器 跳 转 jE 0.2% 














小 于 则 置 位 slt 9.9% | 2.3% 
小 于 立即 数 则 置 位 slti | 3.1% | 0.3% 
符号 比较 ， 小 于 则 置 位 sltu | 3.4% | 0.8% 





符号 比较 ， 小 于 立即 数 则 置 位 | sltiu | 1.1% | 0.1% 


图 3-28 在 SPEC2006 整数 和 浮 点 数 中 MIPS 指令 的 使 用 频率 。 表 中 的 所 有 指令 要 占 到 至 少 1% 的 份 
额 。 伪 指令 在 执行 前 转化 为 MIPS-32 指令 ， 所 以 这 里 没有 出 现 

本 书 的 剩余 部 分 ， 我们 专注 于 MIPS 核心 指令 一 一 除了 乘法 、 除 法 以 外 的 整 型 指令 集 ， 以 
使 计算 机 设计 变 得 易于 解释 。 正 如 你 所 看 到 的 ，MIPS 核心 包含 了 绝 大 多 数 流行 的 MIPS 指令 ; 
我 们 认为 ， 理 解 运行 MIPS 核心 的 计算 机 将 会 给 你 足够 的 背景 知识 ， 去 理解 更 为 复杂 的 计算 机 。 
无 论 什么 指令 集 或 者 其 大 小 一 一 MIPS、ARM、x86 一 一 永远 不 要 忘记 位 模式 没有 内 在 的 含义 。 
同样 ， 位 模式 可 能 表示 一 个 带 符号 整数 、 无 符号 整数 、 浮 点 数 、 串 、 指 令 ， 等 等 。 在 存储 程序 
计算 机 中 ， 对 位 模式 的 操作 决定 其 含义 。 


蚁 3.11 历史 观点 和 拓展 阅读 


Gresham 法 则 (“ 劣 市 驱逐 良 币 ”) ， 对 于 计算 机 则 是 “ 快 的 淘汰 慢 的 ， 即 使 快 
的 是 错误 的 ”。 











一 一 做 Kahan, 1992 
绝 不 要 族 育 ， 绝 和 不要， 永远 ， 了 永远， 永远 ， 不 要 族 育 一 位 何事 情 ， 不 论 大 
小 一 一 绝 不 要 族 育 。 
一 一 温 斯 顿 . 熏 于 和 轩 ,在 Jarrow 学 村 的 演讲 ，1941 


本 节 回 湖 到 冯 “' 诺 依 曼 来 纵览 浮 点 历史 ,包括 有 争议 的 EEE 标准 的 令 人 惊讶 的 成 就 ， 以 
及 x86 的 80 位 浮 点 堆栈 结构 的 基本 原理 。 见 配套 网 站 上 3. 11 节 。 
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3. 12 练习 题 


3.1 
3.2 


3.3 


3.4 
3.5 


3.6 
3.7 


3.8 


3.9 


3.10 


3.11 


3.12 


3. 13 


3. 18 


3. 19 


3.20 


[5] <3.2 >5ED4 -07A4 是 无 符号 16 位 十 六 进 制 数 时 如 何 表示 ? 结果 必须 使 用 16 进 制 表示 。 

[5] <3.2 >5ED4 -07A4 是 带 符号 16 位 十 六 进 制 数 且 以 符号 - 数值 形式 存放 时 如 何 表示 ? 结果 必 
须 使 用 16 进 制 表示 。 

[10] <3.2> 将 SED4 转换 成 二 进 制 数 。 使 用 十 六 进 制 表 示 计 算 机 中 的 数值 很 具有 吸引 力 的 原因 是 
什么 ? 

[5] <3.2 > 写 出 4365 -3412 使 用 无 符号 12 位 八进制 数 的 表示 形式 。 结 果 必 须 使 用 八进制 表示 。 
[5] <3.2 > 写 出 4365 -3412 使 用 带 符号 12 位 八进制 数 且 以 符号 - 数值 形式 存放 的 表示 形式 。 结 
果 必 须 使 用 八进制 表示 。 . 

[5] <3.2 > 假定 185 和 122 是 无 符号 8 位 十 进 制 整数 。 计 算 185 - 122。 是 否 有 上 溢 或 者 下 溢 ? 

[5] <3.2 > 假定 185 和 122 是 带 符号 8 位 十 进 制 整数 且 以 符号 -数值 形式 存放 。 计 算 185 + 122。 
是 否 有 上 溢 或 者 下 洲 ? 

[5] <3.2 > 假定 185 和 122 是 带 符 号 8 位 十 进 制 整数 且 以 符号 - 数值 形式 存放 。 计 算 185 - 122。 
是 否 有 上 溢 或 者 下 洲 ? 

[10] <3.2 > 假定 151 和 214 是 带 符号 8 位 十 进 制 整数 且 以 补 码 形 式 存放 。 使 用 饱和 算术 计算 
151 +214。 结 果 必 须 使 用 十 进 制 。 

[10] <3.2> 假 定 151 和 214 是 带 符号 8 位 十 进 制 整数 且 以 补 码 形式 存放 。 使 用 饱和 算术 计算 
151 -214。 结 果 必 须 使 用 十 进 制 。 

[10] <3.2 > 假定 151 和 214 是 无 符号 8 位 十 进 制 数 。 使 用 饱和 算术 计算 151 +214。 结 果 必 须 使 用 
十 进 制 。 

[20] <3.3 > 使 用 图 3-3 所 示 的 硬件 描述 计算 八进制 无 符号 6 位 整数 62 和 12 的 乘积 ， 并 给 出 一 个 
类 似 于 图 3-6 中 的 表 。 必 须 给 出 每 个 步骤 中 每 个 寄存 器 的 内 容 。 

[20] <3.3 > 使 用 与 图 3-6 相同 的 一 张 表 ， 使 用 图 3-5 所 示 的 硬件 描述 计算 十 六 进 制 无 符号 8 位 整 
数 62 和 12 的 乘积 。 必 须 给 出 每 个 步骤 中 每 个 寄存 器 的 内 容 。 

[10] <3.3 > 如 果 一 个 整数 是 8 位 宽 ， 且 每 个 步骤 的 操作 需要 4 个 时 间 单 位 ， 使 用 图 3-3 和 图 3-4 
的 方法 计算 执行 一 次 乘法 必需 的 时 间 。 假 定 在 步骤 1a 中 ,无 论 是 否 加 了 被 乘 数 还 是 加 0， 加 法 都 
要 执行 。 另 外 假设 寄存 器 已 经 初始 化 ( 只 需要 计算 执行 乘法 循环 本 身 所 需要 的 时 间 )。 如 果 是 在 
硬件 中 执行 ， 对 被 乘 数 和 乘 数 的 移 位 可 以 同时 进行 ， 如 果 是 在 软件 中 执行 ， 则 会 一 个 做 完 再 做 下 
一 个 。 对 每 种 情况 都 给 出 解答 。 

[10] <3.3 > 计算 采用 书 中 的 方法 (31 个 垂直 的 加 法 堆栈 ) 来 执行 乘法 所 需要 的 时 间 。 设 整数 位 
宽 是 8， 一 个 加 法 需 4 个 单位 时 间 。 

[20] <3.3 > 计算 采用 图 3-7 中 的 方法 来 执行 乘法 所 需要 的 时 间 。 设 整数 位 宽 是 8， 一 个 加 法 需 4 
个 单位 时 间 。 

[20] <3.3 > 正如 书 中 讨论 的 ， 一 种 增强 性 能 的 办 法 是 做 一 次 移 位 和 加 法 来 代 蔡 一 次 实际 的 乘法 。 
例如 ， 因 为 9x6 可 以 写成 (2x2 x2 +1) x6， 所 以 我 们 可 以 通过 将 6 左 移 3 次 再 加 上 6 来 计算 
9 x6。 给 出 用 移 位 和 加 /减法 来 计算 0 x33 x0 x55 的 最 好 的 方法 。 假 设 输入 都 是 8 位 无 符号 整数 。 


[20] <3.4 > 使 用 图 3-8 中 的 硬件 结构 计算 74 除 以 21， 并 给 出 一 个 类 似 于 图 3-10 中 的 表 。 你 需要 


给 出 每 一 步 中 各 个 寄存 器 的 值 。 假 设 输入 都 是 6 位 无 符号 整数 。 

[30] <3.4 > 用 图 3-11 中 的 硬件 结构 计算 74 除 以 21， 并 给 出 一 个 类 似 于 图 3- 10 中 的 表 。 你 需要 
给 出 每 一 步 中 各 个 寄存 器 的 值 。 假 设 A 和 B 都 是 6 位 无 符号 整数 。 这 个 算法 使 用 一 个 和 图 3-9 中 
稍微 不 同 的 方法 。 这 个 算法 你 可 能 会 认为 很 难 ， 做 一 次 或 者 两 次 试验 ,或 者 去 网 上 寻找 办 法 来 让 
它 正确 工作 。( 提 示 : 一 种 可 能 的 解决 方案 是 利用 图 3-11 中 暗示 的 那个 余数 寄存 器 既 可 右 移 也 可 
左 移 的 事实 。) 

[5] <3.5 > 如 果 是 补 码 整 数 ， 则 这 些 位 模式 0X0c000000 代表 的 十 进 制 是 多 少 ? 如果 是 无 符号 整 
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3.28 


3.29 


3.30 


3.34 


3.35 





数 呢 ? 

[10] <3.5 > 如 果 位 模式 0X0c000000 放 在 指令 寄存 器 中 ， 那 么 将 执行 什么 MIPS 指令 ? 

[10] <3.5 > 如 果 是 浮 点 数 ， 则 位 模式 0x0c000000 代表 的 十 进 制 数 是 多 少 ? 使 用 IEEE 754 
标准 。 
[10] <3.5 > 写 出 十 进 制 数 63. 25 的 二 进 制 表达 。 设 采用 IEEE 754 单 精度 格式 。 

[10] <3.5 > 写 出 十 进 制 数 63. 25 的 二 进 制 表 达 。 设 采用 下 EE 754 双 精 度 格式 。 

[10] <3.5 > 写 出 十 进 制 数 63. 25 的 二 进 制 表达 。 设 采用 IBM 单 精度 格式 存储 ( 基数 为 16 而 不 是 
2， 有 7 位 指数 位 ) 。 

[20] <3.5 > 写 出 -1.5625 x107 的 二 进 制 位 模式 。 设 采用 一 种 类 似 DEC PDP-8 使 用 的 格式 ( 左 
12 位 是 以 补 码 形 式 存储 的 指数 ， 而 右 24 位 是 以 补 码 形式 存储 的 尾数 。) 没有 隐 含 1。 同 IEEE 754 
标准 的 单 精 度 和 双 精 度 比较 ， 评 估 这 个 36 位 位 模式 的 范围 和 精确 度 。 

[20] <3.5 >IEEE 754-2008 包含 一 种 “ 半 精 度 ” 格 式 ， 只 有 16 位 宽 。 最 左边 仍 为 符号 位 ， 指 数 有 
5 位 宽 上 且 以 余 -16 (excess -16) 的 形式 存储 ， 尾 数 有 10 位 宽 。 具 有 隐 含 1。 写 出 -1.5625 x10™ 
的 这 种 格式 的 二 进 制 位 模式 。 同 IEEE 754 标准 的 单 精度 比较 ， 评 估 这 个 16 位 位 模式 的 范围 和 精 
确 度 。 

[20] <3.5 > 惠普 2114、2115 和 2116 采用 这 样 一 种 格式 ， 其 最 左边 16 位 以 补 码 形式 存储 着 尾数 ， 
紧 跟 着 在 另 一 个 16 位 域 里 ， 左 边 8 位 是 尾数 的 扩展 (使 尾数 达到 24 位 宽 ) ， 右 边 8 位 表示 指数 。 
然而 ， 作 为 一 种 有 趣 的 交叉 ， 指 数 以 符号 - 数值 的 形式 存储 且 符号 位 在 最 右 端 ! 写 出 -1.5625 x 
10 的 这 种 格式 的 二 进 制 位 模式 。 没 有 隐 含 1。 同 正 EE 754 标准 的 单 精 度 比较 ， 评 估 这 个 32 位 位 
模式 的 范围 和 精确 度 。 

[20] <3.5 > 手 算 2.612 5 x10! 和 4.150390 625 x10-' 的 和 , 设 A 和 B 以 练习 题 3.27 中 提 到 的 16 
位 半 精 度 格 式 存储 。 假 设 有 1 位 保护 位 、1 位 伟人 位 和 1 位 粘贴 位 ， 并 采用 向 最 靠近 的 偶数 舍 人 的 
模式 。 给 出 所 有 步骤 。 

[30] <3.5 > 手 算 -8.054 6875 x10" 和 一 1.799 316 406 25 x107 "的 积 , 设 A 和 B 以 练习 题 3. 27 中 
提 到 的 16 位 半 精 度 格式 存储 。 假 设 1 位 保护 位 、1 位 伟人 位 和 1 位 粘贴 位 ， 并 采用 向 最 靠近 的 偶 
数 舍 人 的 模式 。 给 出 所 有 步骤 ; 然而 ， 作 为 书 中 已 经 做 过 的 例子 ， 你 可 以 以 人 们 可 读 的 格式 来 做 
这 个 乘法 ， 而 不 用 练习 题 3. 12 到 练习 题 3. 14 中 描述 的 技术 。 注 明 是 否 上 洲 或 者 下 洲 。 分 别 以 练 
习题 3. 27 中 的 16 位 浮 点 模式 和 十 进 制 数 写 出 你 的 答案 。 你 的 结果 精确 程度 如 何 ? 和 你 用 计算 器 
取得 的 结果 相 比 呢 ? 

[30] <3.5 > 手 算 8. 625 x 10! 除 以 -4. 875 x 10"。 给 出 必要 的 步 又。 假设 有 1 个 保护 位 、1 个 伟人 
位 和 1 个 粘贴 位 ， 并 在 必要 时 使 用 。 以 练习 题 3. 27 中 的 16 位 浮 点 格式 和 十 进 制 格式 给 出 最 终 的 
结果 ， 并 比较 十 进 制 结 果 和 用 计算 器 得 到 的 结果 。 

[20] <3.9 > 手 算 (3.984 375 x10-1 +3.4375x10-) +1.771 x10:， 设 每 个 数值 都 以 练习 题 3. 27 
中 提 到 的 16 位 半 精 度 格式 存储 〈 书 中 也 有 介绍 ) 。 假 设 有 1 位 保护 位 、1 位 会 入 位 和 1 位 粘贴 位 ， 
并 采用 向 最 靠近 的 偶数 舍 信 的 模式 。 给 出 所 有 步骤 ， 并 以 16 位 浮 点 格式 和 十 进 制 格式 给 出 你 的 
答案 。 

[20] <3.9 > 手 算 3.984375 x10-1+(3.4375x10- +1.771 x103)， 设 每 个 数值 都 以 练习 题 3. 27 
中 提 到 的 16 位 半 精 度 格式 存储 〈 书 中 也 有 介绍 ) 。 假 设 有 1 位 保护 位 、1 位 伟人 位 和 1 位 粘贴 位 ， 
并 采用 向 最 靠近 的 偶数 伟人 的 模式 。 给 出 所 有 步骤 ， 并 以 16 位 浮 点 格式 和 十 进 制 格式 给 出 你 的 
答案 。 

[10] <3.9 > 根据 练习 题 3. 32 和 练习 题 3. 33 的 结果 , 计算 (3.984 375 x 10- +3.4375x107')+ 
1.771 x10 =3.984375 x10-!+ (3.4375x10-'+1.771x10;) 是 否 成 立 ? 

[30] <3.9 > 手 算 (3.41796875 x10 习 x6.34765625 x10 习 ) x1.05625 x10*， 设 每 个 值 都 以 练习 
题 3. 27 中 提 到 的 16 位 半 精 度 格式 存储 ( 书 中 也 有 介绍 )。 假 设 有 1 位 保护 位 、1 位 舍 人 位 和 1 位 
粘贴 位 ， 并 采用 向 最 靠近 的 偶数 合 入 的 模式 。 给 出 所 有 步骤 ， 并 以 16 位 浮 点 格式 和 十 进 制 格式 给 
出 你 的 答案 。 
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[30] <3.9 > 手 算 3.417 968 75 x 10-3 x (6.347 656 25 x 10-3 x1.056 25 x 102 ) ， 设 每 个 值 都 以 练 
习题 3. 27 中 提 到 的 16 位 半 精 度 格式 存储 ( 书 中 也 有 介绍 )。 假 设 有 1 位 保护 位 、1 位 舍 入 位 和 1 
位 粘贴 位 ， 并 采用 向 最 靠近 的 偶数 舍 人 的 模式 。 给 出 所 有 步骤 ,并 以 16 位 浮 点 格式 和 十 进 制 格式 
给 出 你 的 答案 。 
[10] <3.9 > 根据 练习 题 3. 35 和 练习 题 3. 36 的 结果 ， 计 算 (3.417 968 75 x10- x6.347 656 25 x 
10-3) x1.05625 x10?: =3.41796875 x10- x (6.347 65625 x10-? xl1.05625 x10*) 是 否 成 立 ? 
[30] <3.9 > 手 算 1.666015 625 x10" x (1.9760x104+ (一 1.9744) x10:) ， 设 每 个 值 都 以 练习 
题 3. 27 中 提 到 的 16 位 半 精 度 格式 存储 ( 书 中 也 有 介绍 ) 。 假 设 有 1 位 保护 位 、1 位 伟人 位 和 1 位 
粘贴 位 ， 并 采用 向 最 靠近 的 偶数 伟人 的 模式 。 给 出 所 有 步 又， 并 以 16 位 浮 点 格式 和 十 进 制 格式 给 
出 你 的 答案 。 
[30] <3.9 > 手 算 (1.666 0156 25 x10" x1.976 0 x104) +(1.666 015 625 x10" x( -1.9744) x10 ) ， 
设 每 个 值 都 以 练习 题 3. 27 中 提 到 的 16 位 半 精 度 格式 存储 〈 书 中 也 有 介绍 ) 。 假 设 有 1 位 保护 位 、 
1 位 伟人 位 和 1 位 粘贴 位 ， 并 采用 向 最 靠近 的 偶数 售 人 的 模式 。 给 出 所 有 步骤 ， 并 以 16 位 浮 点 格 
式 和 十 进 制 格式 给 出 你 的 答案 。 
[10] <3.9 > 根据 练习 题 3. 38 和 练习 题 3. 39 的 结果 ,计算 (1.666 015 625 x 10" x1.976 0 x10 ) + 
(1.666 015 625 x10° x ( -1.9744) x104) =1.666 015 625 x10" x (1.9760 x10’ +(—1.9744) x10’) 
是 否 成 立 ? 
[10] <3.5 > 按照 下 EE 754 浮 点 格式 ， 写 出 - 1/4 的 位 模式 。 你 能 精确 表示 -1/4 吗 ? 
[10] <3.5 > 如 果 将 -1/4 自 加 4 次 得 到 多 少 ? -1/4 x4 是 多 少 ? 它们 相同 吗 ? 它们 应 该 是 多 少 ? 
[10] <3.5 > 写 出 数值 1/3 的 尾数 的 位 模式 ， 其 浮 点 格式 采用 二 进 制 编码 的 尾数 。 假 设 有 24 位 ， 
并 且 不 需要 进行 规格 化 。 这 种 表达 精确 吗 ? 
[10] <3.5 > 写 出 尾数 的 位 模式 ， 其 浮 点 格式 采用 BCD 编码 ( 基 10) 而 不 是 基 2 的 尾数 。 假 设 有 
24 位 ， 并 且 不 需要 进行 规格 化 。 这 种 表达 精确 吗 ? 
[10] <3.5 > 写 出 尾数 的 位 模式 ， 其 浮 点 格式 采用 基 15 编码 而 不 是 基 2 的 尾数 。( 基 16 编码 使 用 
符号 0~9 和 A ~F。 基 15 编码 使 用 0 ~9 和 A ~E。) 假设 有 24 位 ， 并 且 不 需要 进行 规格 化 。 这 种 
表达 精确 吗 ? 
[20] <3.5 > 写 出 尾数 的 位 模式 ， 其 浮 点 格式 采用 基 30 编码 而 不 是 基 2 的 尾数 。( 基 16 编码 使 用 
符号 0 ~9 和 A ~F。 基 30 编码 使 用 0 ~9 和 A ~T。) 假设 有 20 位 ， 并 且 不 需要 进行 规格 化 。 这 种 
表达 精确 吗 ? 
[45] <3.6，3.7 > 下面 的 C 代码 实现 了 一 个 4 阶 FIR 滤波 器 ， 其 输入 为 数组 sig_ in。 假 设 所 有 的 
数组 元 素 为 16 位 定点 数 。 
for (1= 3:i<12831 十 十 ) 
sig out[i]=sig in[i-3]* ffL0]+Sig_in[C-2] 关 了 于 [1 
+sig_in[i-1] * f[2]+sig_in[i] * f[3]; 

假设 你 要 面向 一 个 具有 SIMD 指令 集 且 有 128 位 寄存 器 的 处 理 器 ， 使 用 汇编 语言 对 该 代码 进行 
优化 。 在 不 知道 指令 集 细 节 的 情况 下 ， 简 要 介绍 一 下 你 该 怎样 实现 该 代码 ， 最 大 限度 地 使 用 子 字 
并 行 操作 ， 并 且 使 寄存 器 和 存储 器 间 的 数据 传送 量 最少 。 指 明 你 对 使 用 的 指令 集 的 假设 。 
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处 理 器 
编译 器 

接口 
: 输入 
评价 性 能 he 
1 ”输出 

计算 机 的 5 个 经 典 部 件 

在 关键 问题 上 ， 没 有 什么 细 凶 是 小 事 。 
一 一 法 图 谤 语 


4.1 引言 


在 第 1 章 中 ， 我 们 看 到 一 台 计 算 机 的 性 能 由 三 个 关键 因素 决定 : 指令 数目 、 时 钟 周期 长 度 
和 每 条 指令 所 需 时 钟 周期 数 ( CPI) 。 我 们 在 第 2 章 阐 明 编 译 器 和 指令 集 决 定 了 一 个 程序 所 需 的 
指令 数目 。 而 处 理 器 的 实现 方式 则 决定 了 时 钟 周 期 长 度 和 CPI。 在 本 章 中 ,我 们 为 MIPS 指令 
集 的 两 种 不 同 实现 方式 分 别 建立 数据 通路 和 控制 单元 。 

本 章 包 含 了 实现 一 个 处 理 器 所 需 的 原理 与 技术 。 先 从 一 个 高 度 抽象 和 简化 的 概述 开始 ， 再 
建立 数据 通路 ， 并 进一步 构建 一 个 简单 的 处 理 器 以 实现 像 MIPS 这 样 的 指令 集 。 本 章 的 其 余部 
分 还 包括 : 一 个 更 实际 的 流水 化 的 MIPS 实现 ， 以 及 实现 更 复杂 的 指令 集 (如 x86) 时 所 需要 
的 概念 。 

对 理解 指令 的 高 层 解 释 及 其 对 程序 性 能 的 影响 感 兴趣 的 读者 ，4. 5 节 给 出 了 流水 线 的 基本 
概念 。4. 10 节 介 绍 了 最 近 的 趋势 。4. 11 节 描 述 了 最 新 的 Intel Core i7 和 ARM Cortex- A8 体系 结 
构 。4. 12 节 展 示 了 如 何 通过 指令 级 并 行将 3. 8 节 的 矩阵 乘法 性 能 提高 两 倍 以 上 。 这 几 节 为 在 高 


和 


层次 理解 流水 线 概念 提供 了 必要 的 背景 知识 。 

对 希望 能 更 深入 地 理解 处 理 器 及 其 性 能 的 读者 ，4.3 节 、4.4 节 和 4.6 节 很 有 用 。 对 如 何 
建立 一 个 处 理 器 感 兴趣 的 读者 可 以 阅读 4.2 节 、4.7 节 、4.8 节 和 4.9 节 。 对 现代 硬件 设计 感 
兴趣 的 读者 ， 可 以 参考 4. 13 节 ， 其 中 介绍 了 实现 硬件 时 使 用 的 硬件 设计 语言 与 CAD 工具 ， 以 
及 如 何 使 用 硬件 设计 语言 来 描述 一 个 流水 化 的 实现 。 它 对 于 理解 流水 化 硬件 执行 的 细节 有 很 大 
帮助 。 


一 个 基本 的 MIPS 实现 


我 们 将 要 设计 的 实现 方式 包含 了 MIPS 指令 集 的 一 个 核心 子 集 : 

。 存储 器 访问 指令 : 取 字 (lw) 和 存 字 (sw) 。 

。 算术 逻辑 指令 : 加 法 (add)、 减 法 ( sub) 、 与 运算 (AND) 、 或 运算 (oR) 和 小 于 

则 设置 (slt)。 

e 分 支 指 令 : 相等 则 分 支 (beq) 和 跳 转 〈j) ， 我 们 放 到 最 后 实现 。 

这 个 子 集 没 有 包含 所 有 的 整数 指令 (如 不 包含 乘 、 除 指令 和 移 位 指令 ) ， 也 没有 包含 任何 
浮 点 指令 。 然 而 ， 使 用 该 子 集 可 以 说 明 在 建立 数据 通路 和 控制 单元 时 的 关键 原理 ， 并 可 以 在 此 
基础 之 上 实现 其 他 指令 。 

在 学 习 此 实现 方式 时 ， 我 们 将 会 有 机 会 看 到 指令 集 如 何 决 定 实现 方式 的 多 个 方面 ， 以 及 实 
现 策略 如 何 影响 计算 机 的 时 钟 速度 和 CPI。 在 第 1 章 介绍 的 许多 关键 设计 原理 ， 如 “简单 源 于 
规整 ”的 指导 思想 ， 都 将 体现 出 来 。 并 且 ， 本 章 中 用 于 实现 MIPS 子 集 的 大 多 数 概念 与 很 多 计 
算 机 的 基本 构造 思想 是 一 致 的 ， 包括 从 高 性 能 服务 器 到 通用 微 处 理 器 、 骨 入 式 处 理 器 等 各 式 各 
样 的 计算 机 。 
实现 方式 概述 

在 第 2 章 中 ， 我 们 学 习 了 MIPS 的 核心 指令 ， 包 括 整 数 算术 逻辑 指令 、 存 储 访问 指令 及 分 
支 指 令 。 这 些 指令 的 实现 过 程 大 致 相同 ， 而 与 具体 的 指令 类 型 无 关 。 实 现 每 条 指令 的 前 两 步 是 
一 样 的 : 

1) 程序 计数 器 (PC) 指向 指令 所 在 的 存储 单元 ， 并 从 中 取出 指令 。 

2) 通过 指令 字段 内 容 ， 选 择 读 取 一 个 或 两 个 寄存 器 。 对 于 取 字 指令 ， 只 需 读 取 一 个 寄存 
器 ， 而 其 他 大 多 数 指令 要 求 读 取 两 个 寄存 器 。 

这 两 步 之 后 ， 为 完成 指令 而 进行 的 步骤 则 取决 于 具体 的 指令 类 型 。 幸 运 的 是 ， 对 三 种 指令 
类 型 (存储 访问 、 算 术 逻 辑 、 分 支 ) 的 每 一 种 而 言 ， 其 动作 大 致 相 同 , 与 具体 指令 无 关 。 
MIPS 指令 集 的 简洁 和 规整 使 许多 指令 的 执行 很 相似 ， 因 而 简化 了 实现 过 程 。 

例如 ， 除 跳 转 指令 外 的 所 有 指令 在 读 取 寄 存 器 后 ， 都 要 使 用 算术 逻辑 单元 (ALU) 。 存 储 
访问 指令 用 ALU 计算 地 址 ， 算 术 逻 辑 指 令 用 ALU 执行 运算 ， 分 支 指令 用 ALU 进行 比较 。 在 使 
用 ALU 之 后 ， 完 成 不 同 指令 所 需 的 动作 就 有 所 不 同 了 。 存 储 访问 指令 需要 访问 内 存 以 便 读 取 
和 存储 数据 。 算 术 逻 辑 指令 或 取 数 指令 将 来 自 ALU 或 存储 器 的 数据 写 人 寄存 器 。 对 分 支 指令 ， 


我 们 需要 根据 比较 的 结果 决定 是 否 改 变 下 一 条 指令 地 址 ; 如 果 不 修改 下 一 条 指令 地 址 ， 则 下 一 


条 指令 地 址 默认 是 当前 指令 地 址 +4。 

图 4-1 给 出 了 一 种 MIPS 实现 的 抽象 视图 ， 图 中 主要 描述 了 不 同 的 功能 单元 及 其 互 连 关系 。 
尽管 该 图 给 出 了 绝 大 多 数 数据 在 处 理 器 中 的 流动 方式 ， 但 它 仍 然 忽略 了 指令 执行 过 程 中 的 两 个 
重要 方面 。 

首先 ， 在 图 4-1 中 的 许多 位 置 ， 某 个 单元 的 数据 可 能 来 自 于 两 个 不 同 的 单元 。 例 如 ， 写 人 
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PC 的 值 可 能 来 自 两 个 加 法 器 中 的 一 个 ， 写 人 寄存 器 堆 的 数据 可 能 来 自 ALU 或 数据 存储 器 ， 
ALU 的 第 二 个 输入 可 能 来 自 寄存 器 或 指令 中 的 立即 数字 段 。 实 际 上 ， 不 能 简单 地 直接 将 这 些 数 
据 线 连 在 一 起 ， 必 须 增加 一 个 逻辑 单元 用 以 从 不 同 的 数据 来 源 中 选择 一 个 送 给 目标 单元 。 这 个 
选择 过 程 通常 是 由 一 个 叫 多 选 器 (multiplexor) 的 逻辑 单元 完成 的 ， 尽 管 该 单元 叫 数据 选择 器 
可 能 更 合适 。 附 录 B 详细 描述 了 多 选 器 根据 控制 信号 选择 不 同 输入 的 过 程 。 控 制 信号 主要 由 当 
前 执行 指令 中 包含 的 信息 决定 。 





图 4-1 一 个 MIPS 子 集 实现 的 抽象 视 图 ， 描 述 了 主要 功能 单元 及 其 连接 。 所 有 指令 都 开始 于 使 用 程序 计 
数 器 获得 指令 在 指令 存储 器 中 的 地 址 。 在 取 到 指令 后 ， 指 令 所 使 用 的 寄存 器 操作 数 由 指令 中 的 
对 应 字段 决定 。 在 取 到 寄存 器 操作 数 之 后 ， 可 以 用 来 计算 存储 器 地 址 (对 于 存 取 类 指令 ) ， 或 者 
计算 算术 运算 结果 (对 于 整数 算术 逮 辑 类 指令 ) ， 或 者 进行 比较 〈 对 于 分 支 类 指令 ) 。 如 果 是 算 
术 膛 辑 类 指令 ，ALU 的 结果 必须 写 回 寄存 器 ; 如果 是 存 取 类 指令 ，ALU 的 结果 可 作为 读 写 存储 器 
的 地 址 。ALU 或 存储 器 的 结果 可 写 回 寄存 器 堆 。 分 支 操作 需要 使 用 ALU 的 输出 来 决定 下 一 个 指令 
地 址 ， 下 一 个 指令 地 址 可 能 来 自 ALU (在 ALU 中 完成 PC 值 与 分 支 偏 移 量 相 加 ) ， 也 可 能 来 自 加 法 
器 (当前 PC 值 加 4) 。 连 接 功能 单元 的 粗 线 表示 总 线 ， 其 中 包含 多 个 信号。 箭头 用 来 指示 信息 流 
动 的 方向 。 因 为 信号 线 在 图 上 可 能 相交 ， 所 以 在 相交 信号 线 确实 相连 时 用 一 个 黑 点 来 表示 

其 次 ,图 4-1 中 的 许多 单元 的 控制 依赖 于 当前 执行 指令 的 类 型 。 例 如 ， 存 取 指令 读 写 数据 
存储 器 ， 取 数 指令 和 算术 逻辑 指令 写 人 寄存 器 堆 。 很 显然 ，ALU 根据 不 同 的 指令 执行 不 同 的 操 
作 。( 附 录 B 给 出 了 ALU 的 设计 细节 ) 。 类 似 于 多 选 器 ， 这 些 操作 都 由 控制 信号 确定 ， 而 控制 
宦 号 是 由 指令 的 某 些 字段 所 决定 的 。 

图 4-2 在 图 4-1 的 基础 上 增加 了 三 个 必需 的 多 选 器 和 主要 功能 单元 的 控制 信号 。 图 中 还 增 
加 了 一 个 控制 单元 control unit) ， 它 以 指令 为 输入 ， 决 定 功能 单元 和 两 个 多 选 器 的 控制 信号 。 
第 三 个 多 选 器 用 来 决定 是 将 PC + 4 还 是 分 支 目的 地 址 写 人 PC， 该 多 选 器 在 执行 beq 指令 时 ， 
根据 ALU 进行 比较 时 设置 的 Zero 标志 位 选择 写 人 PC 的 数值 。MIPS 指令 集 的 简单 与 规整 使 得 
只 需 简单 的 译 码 即 可 生成 控制 信号。 

在 本 章 后 面 的 部 分 ， 我 们 将 会 为 图 4-2 加 入 更 多 的 细节 ， 包 括 更 多 的 功能 单元 和 单元 间 的 
连接 ， 并 增强 控制 单元 功能 以 控制 不 同类 型 的 指令 执行 过 程 。4.3 节 和 4.4 节 描述 了 每 条 指令 
使 用 一 个 时 钟 周期 的 简单 实现 方式 ， 它 将 遵循 图 4-1 和 图 4-2 的 一 般 形式 。 在 第 一 个 设计 中 ， 
每 条 指令 在 一 个 时 钟 沿 开始 执行 ， 然 后 在 下 一 个 时 钟 沿 完成 执行 。 

尽管 这 种 方法 易于 理解 ， 但 是 并 不 实际 ， 因 为 时 钟 周期 必须 设置 为 足够 容纳 执行 时 间 最 长 
的 指令 。 在 设计 完 这 种 简单 计算 机 的 控制 后 ， 我 们 将 会 讨论 一 种 流水 的 实现 方式 及 其 带 来 的 复 
杂 性 和 异常。 
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图 4-2 一 个 MIPS 子 集 的 基本 实现 ， 其 中 包含 了 必要 的 多 选 器 和 控制 信号 。 最 上 面 的 多 选 器 控制 写 人 PC 
的 值 (PC +4 或 分 支 目的 地 址 ) ， 该 多 选 器 由 一 个 门 控制 ， 该 门将 ALU 的 零 输出 与 一 个 指示 是 否 
为 分 支 指令 的 信号 相 “ 与 ” 。 中 间 输 出 到 寄存 器 堆 的 多 选 器 ， 用 来 选择 将 被 写 人 寄存 器 堆 中 的 是 
ALU 的 输出 (算术 逻辑 指令 时 ) 还 是 数据 存储 器 的 输出 〈 取 数 指令 时 ) 。 最 后 ， 最 下 面 的 多 选 器 
决定 ALU 的 第 二 个 输入 是 来 自 寄存 器 堆 (算术 逻辑 指令 或 分 支 指令 时 ) 还 是 指令 的 偏 移 量 字 段 
( 存 取 指令 时 ) 。 新 增 的 控制 信号 直接 控制 ALU 的 操作 、 数 据 存储 器 的 读 写 和 寄存 器 堆 的 写 人 等 。 
控制 信号 在 图 中 用 灰色 线 标识 出 来 


车 | 小 测验 

图 4-1 和 图 4-2 包含 了 本 章 开 始 给 出 的 计算 机 五 大 经 典 部 件 中 的 哪 几 个 ? 
4.2 逻辑 设计 的 一 般 方法 

在 考虑 计算 机 的 设计 时 ， 必 须 决 定 机 器 的 逻辑 实现 以 及 机 器 时 钟 。 本 节 将 继续 讨论 一 些 本 
章 经 常用 到 的 数字 逻辑 的 关键 思想 。 如 果 你 缺乏 数字 逻辑 方面 的 知识 ,那么 在 继续 学 习 之 前 ， 
阅读 附录 B 将 有 所 帮助 。 

MIPS 实现 中 的 数据 通路 功能 部 件 包括 两 种 不 同 的 逻辑 单元 : 处 理 数据 值 的 单元 和 存储 
状态 的 单元 。 处 理 数据 值 的 单元 都 是 组 合 单元 ( combinational element) ， 它 们 的 输出 只 取决 
于 当前 的 输入 。 当 输入 相同 时 ， 组 合 单元 产生 的 输出 也 相同 。 出 现在 图 4-1 中 并 在 附录 B 中 
详细 论述 的 ALU 就 是 组 合 单元 。 因 为 其 没有 内 部 存储 功能 ， 当 给 定 一 组 输入 时 总 是 产生 同 
样 的 输出 。 

设计 中 的 其 他 单元 是 非 组 合 单元 ， 而 是 包含 状态 的 。 如 果 一 个 单元 带 有 内 部 存储 功能 ， 它 
就 包含 状态 ， 称 之 为 状态 单元 (state element) ， 因 为 关机 后 重启 计算 机 ， 通 过 恢复 状态 单元 的 
原 值 ， 计 算 机 可 继续 运行 如 同 没 有 断 电 一 样 。 也 就 是 说 ， 这 些 状态 单元 完全 描述 了 计算 机 的 状 
态 。 图 4-1 中 的 指令 存储 器 、 数 据 存储 器 和 寄存 器 都 是 状态 单元 。 


2 组合 单元 : 一 个 操作 单元 ， 如 与 门 或 ALU。 
2 状态 单元 : 一 个 存储 单元 ， 如 寄存 器 或 存储 器 。 


一 个 状态 单元 至 少 有 两 个 输入 和 一 个 输出 。 两 个 必要 的 输入 为 要 写 人 单元 的 数据 值 和 决定 
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何 时 写 人 的 时 钟 信号 。 状 态 单元 的 输出 提供 了 在 前 一 个 时 钟 信号 写 人 单元 的 数据 值 。 例 如 ， 逮 
辑 上 最 简单 的 一 种 状态 单元 是 D 触发 器 (参见 附录 B)， 它 有 两 个 输入 (一 个 数据 值 和 一 个 时 
钟 ) 和 一 个 输出 。 除 了 触发 器 ，MIPS 的 实现 中 还 用 了 另外 两 种 状态 单元 : 存储 器 和 寄存 器 ， 
这 些 在 图 4-1 中 都 已 给 出 。 时 钟 用 于 决定 状态 单元 何 时 被 写 入 。 状 态 单 元 随时 可 读 。 

包含 状态 的 逻辑 部 件 又 被 称 为 时 序 的 〈sequential) ， 因 为 它们 的 输出 由 输入 和 内 部 状态 共 
同 决定 。 例 如 ， 代 表 寄 存 器 的 功能 单元 的 输出 取决 于 所 提供 的 寄存 器 号 和 以 前 写 人 寄存 器 的 内 
容 。 组 合 单元 和 时 序 单元 的 有 关 操 作 及 它们 的 结构 都 在 附录 B 中 有 详细 论述 。 
时 钟 方法 

时 钟 方法 (clocking methodology) 规定 了 信号 可 以 读 出 和 写 人 的 时 间 。 规 定 信和 号 读 写 的 时 
间 非 常 重要 ， 因 为 若 一 个 信号 同时 被 读 出 和 写 和 信 ， 则 所 读 出 的 信号 可 能 是 写 人 前 的 值 ， 也 可 能 
是 新 写 入 的 值 ， 甚 至 是 两 者 的 混合 。 显 然 ， 这 种 不 确定 性 在 计算 机 的 设计 中 是 不 允许 的 。 时 钟 
方法 即 是 为 避免 这 种 情况 而 提出 的 。 

为 简单 起 见 ， 我 们 假定 采用 边沿 触发 的 时 钟 (edge- triggered clocking) 方法 ， 即 在 时 序 逻 
辑 单元 中 存储 的 所 有 值 都 只 允许 在 时 钟 跳 变 的 边沿 时 改变 ( 见 图 4-3)。 因 为 只 有 状态 单元 能 
存储 数据 值 ， 所 有 的 组 合 逻 辑 都 必须 从 状态 单元 集合 接收 输入 ， 并 将 输出 写 入 状态 单元 集合 
中 。 其 输入 为 之 前 某 时 钟 周期 写 人 的 数据 ， 其 输出 可 供 之 后 某 时 钟 周期 使 用 。 


定时 钟 方法 : 用 来 确定 数据 相对 于 时 钟 何 时 稳定 和 有 效 的 方法 。 
人 边沿 触发 的 时 钟 : 一 种 所 有 的 状态 改变 发 生 于 时 钟 沿 的 时 钟 机 制 。 


图 4-3 组 合 逻辑 、 状 态 单元 和 时 钟 周期 的 关系 。 在 一 


个 同步 的 数字 系统 中 ， 时 钟 信号 决定 了 数值 何 
ee 时 写 人 状态 单元 。 在 有 效 的 时 钟 边 沿 导致 状态 
变化 之 前 ， 状 态 单元 的 输入 信号 必须 达到 稳定 
se (也 就 是 说 ,状态 单元 的 值 保持 不 变 ， 直 到 时 名 
时 名 周期 沿 到 来 ) 。 本 章 假定 所 有 状态 单元 (包括 存储 
器 ) 都 是 上 升 沿 触发 的 ， 即 这 些 信号 都 是 在 时 

钟 的 上 升 沿 发 生变 化 。 


图 4-3 描述 了 一 个 组 合 逻辑 单元 及 与 其 相连 的 两 个 状态 单元 。 组 合 逻辑 单元 的 操作 在 一 个 
时 钟 周期 内 完成 : 所 有 信和 号 在 一 个 时 钟 周期 内 从 状态 单元 1 经 组 合 逻辑 到 达 状 态 单元 2， 信 号 
到 达 状 态 单元 2 所 需 的 时 间 决 定 了 时 钟 周期 的 长 度 。 

为 简单 起 见 ， 若 某 状态 单元 在 每 个 有 效 的 时 钟 边沿 都 进行 写 入 操作 ， 则 可 忽略 写 控制 信号 
(control signal) 。 相 反 ， 若 某 状态 单元 不 是 每 个 周期 都 进行 修改 ， 那 么 它 就 需要 一 个 写 控制 信 
号 。 写 控制 信号 和 时 钟 信号 都 是 输入 信号 ， 只 有 时 钟 边沿 到 来 并 且 当 写 控制 信号 有 效 时 ， 状 态 
单元 才 改 变 状态 。 

我 们 将 使 用 术语 有 效 ( asserted) 表示 信号 为 逻辑 高 ， 无 效 ( deasserted) 表示 信号 为 逻辑 
低 。 另 外 ,我 们 之 所 以 要 使 用 术语 “有 效 ” 和 “无 效 ”"， 是 因为 在 进行 硬件 实现 时 ,数字 1 有 
时 表示 逻辑 高 ， 有 时 表示 逻辑 低 。 


控制 信号 : 用 来 决定 多 选 器 选择 或 指示 功能 单元 操作 的 信号 ; 它 与 数据 信号 相对 应 ， 数 据 
信号 包含 由 功能 单元 操作 的 信息 。 

已” 有效: 信号 为 逻辑 高 或 真 。 

驴 无效 : 信号 为 逻辑 低 或 假 。 
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使 用 如 图 4-4 所 示 的 一 种 边沿 触发 的 方法 ， 可 以 在 一 个 时 钟 周期 内 读 出 一 个 寄存 器 的 值 ， 
然后 使 之 经 过 一 些 组 合 逻 辑 ， 同 时 将 新 值 写 人 该 寄存 器 。 选 择 在 时 钟 的 上 升 沿 (从 低 到 高 ) 
还 是 下 降 沿 ( 从 高 到 低 ) 进行 写 操作 无 关 紧 要 ， 因 为 组 合 逻 辑 的 输入 只 有 在 所 规定 的 时 钟 边 
沿 才 可 能 发 生变 化 。 本 书 我 们 使 用 时 钟 的 上 升 沿 。 这 种 边沿 触发 时 钟 方法 在 一 个 时 钟 周期 内 不 
会 出 现 反馈 ， 图 4-4 中 的 逻辑 可 以 正确 地 工作 。 在 附录 B 中 ,还 介绍 了 其 他 的 一 些 时 序 约束 
(如 建立 和 保持 时 间 ) 和 一 些 时 序 方法 。 

图 4-4 一 种 边沿 触发 方法 ， 支 持 状态 单元 在 同一 个 时 钟 周期 内 
同时 读 写 而 不 会 因 竞争 而 出 现 中 间 数 据 。 当 然 ， 必 须 保 

状态 过 全 起 思 证 时 钟 周期 足够 长 ， 以 使 得 当 有 效 的 时 钟 边沿 到 来 时 答 

[| 人 已 经 稳定 。 状 态 单元 的 改变 由 时 钟 边 沿 触发 ， 所 以 不 
可 能 在 一 个 时 钟 周 期 之 内 出 现 反馈 。 如 果 有 反馈 ， 这 个 
设计 就 不 能 正常 工作 。 本 章 和 下 一 章 的 设计 都 采用 边沿 
触发 的 时 钟 方法 ， 结 构 与 本 图 类 似 。 

对 32 位 MIPS 体系 结构 而 言 ， 几 乎 所 有 这 些 状态 和 逻辑 单元 的 输入 和 输出 都 为 32 位 ， 因 
为 处 理 器 处 理 的 大 多 数 数据 的 宽度 为 32 位 。 若 某 单元 的 输入 或 输出 不 是 32 位 ， 我 们 会 特别 指 
出 。 图 示 中 用 粗 线 表示 总 线 ， 即 宽度 为 1 位 以 上 的 信号 。 有 时 要 把 几 根 总 线 合 起 来 构成 更 宽 的 
总 线 ， 例 如 可 能 将 两 根 16 位 总 线 合成 一 根 32 位 总 线 。 在 这 种 情况 下 ， 总 线 标注 将 作出 相应 说 
明 。 另 外 还 加 上 箭头 以 指明 单元 间 数 据 传输 的 方向 。 最 后 ， 灰 色 线 表示 的 控制 信号 将 其 与 数据 
信号 区 分 开 来 ， 两 者 的 差别 将 随 本 章 的 进展 傅 趋 明显 。 


图 ! 小 测验 
是 非 判 断 : 由 于 寄存 器 堆 在 一 个 时 钟 周期 内 既 要 写 人 又 要 读 出 ， 所 以 任何 使 用 边沿 触发 方 
式 写 人 的 MIPS 数据 通路 中 必须 包含 至 少 一 份 寄存 器 堆 的 备份 。 


团 ) 精 解 还 有 一 种 64 位 版 本 的 MIPS 系统 结构 ， 其 中 绝 大 多 数 数据 通路 都 是 64 位 宽 。 


4.3 建立 数据 通路 


设计 数据 通路 比较 合理 的 方法 是 首先 分 析 执 行 每 种 MIPS 指令 时 需要 哪些 主要 部 件 。 
下 面 先 来 看 看 每 条 指令 需要 什么 数据 通路 部 件 ( datapath element) 。 在 指出 数据 通路 部 件 的 同 
时 ， 我 们 也 会 指出 它们 的 控制 信号 。 我 们 将 从 自 底 向 上 开始 ， 使 用 抽象 来 对 此 进行 说 明 。 

图 4-5a 给 出 了 我 们 需要 的 第 一 个 元 素 : 一 个 存储 单元 ， 它 用 于 存储 程序 的 指令 ， 并 在 给 
定 地 址 时 提供 指令 。 图 4-5b 展示 了 程序 计数 器 ( program counter，PC) ， 在 第 2 章 曾 经 出 现 过 ， 
用 于 保存 当前 指令 的 地 址 。 最 后 ， 我 们 需要 一 个 加 法 器 来 计算 PC 的 值 以 指向 下 条 指令 的 地 址 。 
这 个 加 法 器 是 一 个 组 合 单元 ， 可 以 用 附录 B 中 设计 的 ALU 实现 ， 只 需 将 其 中 的 控制 信号 设 为 
总 是 进行 加 法 操作 即 可 。 如 图 4-5e 所 示 ， 我 们 将 给 这 样 的 ALU 加 上 “Add” 标 记 ， 以 表明 它 
成 为 了 一 个 加 法 器 而 不 能 再 进行 其 他 ALU 操作 。 


2 数据 通路 部 件 ; 一 个 用 来 操作 或 保存 处 理 器 中 数据 的 单元 。 在 MIPS 实现 中 ， 数 据 通路 部 
件 包括 指令 存储 器 、 数 据 存 储 器 、 寄 存 器 堆 、ALU 和 加 法 器 。 
2 程序 计数 器 : 存放 下 一 条 将 要 被 执行 指令 的 地 址 的 寄存 器 。 


要 执行 任何 一 条 指令 ， 首 先 要 从 存储 单元 中 将 指令 取出 。 为 准备 执行 下 一 条 指令 ， 也 必须 
增加 程序 计数 器 使 其 指向 下 一 条 指令 ， 即 向 后 移动 4 字 节 。 此 时 的 数据 通路 如 图 4-6 所 示 ， 使 
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用 了 图 4-5 中 的 3 个 部 件 ， 它 可 以 取 指 令 并 能 自 增 PC 以 获得 下 一 条 指令 的 地 址 。 


一 一 > 指令 地 址 
指令 i PC Add 和 
指令 存储 器 


a) 指令 存储 器 b) 程序 计数 器 c) 加 法 器 


图 4-5 存 取 指 令 需 要 的 两 个 状态 单元 ， 以 及 计算 下 一 条 指令 地 址 所 需要 的 加 法 器 。 两 个 状态 单元 分 别 
是 指令 存储 器 和 程序 计数 器 。 因 为 数据 通路 没有 写 指令 ， 所 以 指令 存储 器 只 提供 读 访问 。 因 为 
指令 存储 器 是 只 读 的 ， 我 们 将 它 视 为 组 合 逻 辑 ; 任意 时 刻 的 输出 都 反映 了 输入 地 址 处 的 内 容 ,. 
而 不 需要 读 控制 信号 。( 在 装载 程序 时 需要 写 人 指令 存储 器 ， 但 是 这 很 容易 实现 ， 所 以 为 了 简单 
起 见 我 们 将 其 忽略 。) 程序 计数 器 是 一 个 32 位 的 寄存 器 ， 它 在 每 个 时 钟 周期 未 都 会 被 写 人 ， 所 
以 不 需要 写 控制 信号 。 加 法 器 采用 只 进行 加 法 的 ALU， 它 将 输入 的 两 个 32 位 数 相 加 ， 将 结果 
输出 

现在 讨论 R 型 指令 (参见 图 2-20)。 这 

类 指令 读 两 个 寄存 器 ,对 它们 的 内 容 进行 

ALU 操作 ， 再 写 回 结果 。 我 们 将 这 类 指令 称 

为 R 型 指令 或 算术 逻辑 指令 (因为 它们 执行 

算术 或 逻辑 运算 )。 这 个 指令 集合 包括 第 2 章 

介绍 的 add、sub、AND、OR 和 slt 指令 。 回 忆 

一 下 ,此 类 指令 的 典型 形式 是 add $t1， 

$t2 , $t3 ， 它 将 读 取 $t2 和 $t3 ， 并 将 结果 

写 回 $tl。 > 

处 理 器 的 32 个 通用 寄存 器 位 于 一 个 叫 指令 存储 各 

作 寄 存 器 堆 (register file) 的 结构 中 。 寄 存 

器 堆 即 寄存 器 集合 ， 其 中 的 寄存 器 都 可 通过 图 4-6 用 于 取 指 和 程序 计数 器 自 增 的 数据 通路 部 

指定 相应 的 寄存 器 号 来 进行 读 写 。 寄 存 器 堆 分 。 取 出 的 指令 被 数据 通路 的 其 他 部 分 使 用 

包含 了 计算 机 的 寄存 器 状态 。 另 外 ， 还 需要 

一 个 ALU 来 对 从 寄存 器 读 出 的 数值 进行 运算 。 















令 “” 寄存 器 堆 : 包含 一 系列 寄存 器 的 状态 单元 ， 可 以 通过 提供 寄存 器 号 进行 读 写 。 


由 于 R 型 指令 有 3 个 寄存 器 操作 数 ， 每 条 指令 都 要 从 寄存 器 堆 读 出 两 个 数据 字 ， 再 写 人 一 
个 数据 字 。 为 读 出 一 个 数据 字 ， 寄 存 器 堆 需 要 输入 一 个 要 读 的 寄存 器 号 和 一 个 从 寄存 器 堆 读 出 
结果 的 输出 指示 。 为 写 人 一 个 数据 字 ， 寄 存 器 堆 要 有 两 个 输入 : 一 个 提供 要 写 的 寄存 器 号 
(register number) ， 另 一 个 提供 要 写 的 数据 ( data) 。 寄 存 器 堆 总 是 根据 输入 的 寄存 器 号 输出 相 
应 的 寄存 器 内 容 ， 而 写 操作 由 写 控制 信号 控制 ， 在 写 操作 发 生 的 时 钟 边沿 ， 写 控制 信号 必须 是 
有 效 的 。 这 样 ， 我 们 一 共 需 要 4 个 输入 (3 个 寄存 器 号 和 1 个 数据 ) 和 两 个 输出 (两 个 数据 )， 
如 图 4-7a 所 示 。 输 入 的 寄存 器 号 为 5 位 ， 可 指示 32 个 寄存 器 中 的 某 一 个 (32 =2  ) ， 而 一 条 数 
据 输入 总 线 和 两 条 数据 输出 总 线 宽度 均 为 32 位 。 

图 4-7b 所 示 为 ALU， 该 ALU 有 两 个 32 位 输入 、 一 个 32 位 输出 ， 还 有 一 个 1 位 输出 指示 








其 结果 是 否 为 0。ALU 的 4 位 控制 信号 在 附录 B 中 有 详细 的 描述 。 在 需要 了 解 如 何 设置 ALU 控 
制 信号 时 ， 我 们 将 进行 简要 的 回顾 。 





数据 
ALU 结 果 








RegWrite 


a) 寄存 器 堆 b) ALU 
图 4-7 实现 R 型 指令 的 ALU 操作 所 需 的 两 个 单元 一 一 寄存 器 堆 和 ALU。 寄 存 器 堆 包括 了 所 有 的 寄存 器 ， 
有 两 个 读 端 口 和 一 个 写 端口 。 多 端口 寄存 器 堆 的 设计 在 附录 B 的 B. 8 节 讨 论 。 寄 存 器 堆 的 读 输 
出 总 是 对 应 于 读 寄存 器 号 ， 不 需要 其 他 的 控制 信号 。 但 是 写 寄 存 器 必须 明确 使 能 写 控 制 信号 。 注 
意 写 操 作 是 边沿 触发 的 ， 所 以 所 有 的 写 操作 的 输入 (要 写 的 内 容 、 寄 存 器 号 、 写 控制 信和 号) 必 
须 在 时 钟 边沿 有 效 。 因 为 寄存 器 堆 的 写 人 是 边沿 触发 的 ， 故 可 以 在 同一 时 钟 周期 内 读 出 和 写 入 同 
一 寄存 器 : 读 操作 将 读 出 以 前 写 人 的 内 容 ， 而 写 人 的 内 容 在 下 一 时 钟 周期 才 可 读 。 寄 存 器 号 的 输 
人 都 是 5 位 的 ， 数 据 线 为 32 位 。 若 采用 附录 B 中 的 ALU 设计 ， 则 ALU 的 操作 可 由 4 位 ALU 操 
作 信 号 控制 。 我 们 使 用 ALU 的 零 检测 输出 信号 实现 分 支 指令 。 溢 出 信号 在 4. 9 节 讲 述 异 常 时 才 
会 用 到 ， 在 此 之 前 我 们 先 忽 略 它 
下 面 考虑 MIPS 的 存 取 指 令 ， 其 一 般 形 式 为 : lw $tl,offset value($t2) 或 sw $tl， 
offset value ($t2) 。 在 这 类 指令 中 ， 通 过 将 基 址 寄存 器 $t2 的 内 容 与 指令 中 的 16 位 带 符 
号 偏 移 地 址 相 加 ， 得 到 存储 器 地 址 。 如 果 是 存储 指令 ， 要 从 寄存 器 $tl 中 读 出 要 存储 的 数据 ; 
如 果 是 取 数 指令 ， 则 要 将 从 存储 器 中 读 出 的 数据 存 人 指定 的 寄存 器 $tl 中 。 所 以 ， 图 4-7 中 的 
寄存 器 堆 和 ALU 都 会 用 到 。 
另外 ， 还 需要 一 个 单元 将 16 位 的 偏 移 地 址 符号 扩展 (sign-extend) 为 32 位 的 带 符号 值 ， 
以 及 一 个 保存 读 出 或 写 人 数据 的 存储 单元 。 数 据 存储 单元 在 存储 指令 时 被 写 人 ， 所 以 它 有 读 写 
控制 信号 、 地 址 输入 和 写 人 存储 右 的 数据 输入 。 


”符号 扩展 : 为 增加 数据 项 的 长 度 ， 将 原 数据 项 的 最 高 位 复制 到 新 数据 项 多 出 来 的 高 位 。 


beq 指令 有 3 个 操作 数 ， 其 中 两 个 为 寄存 器 ， 用 于 比较 是 否 相等 ， 另 一 个 是 16 位 偏 移 量 ， 
用 于 计算 相对 于 分 支 指令 所 在 地 址 的 分 支 目 标 地 址 . (branch target address) 。 它 的 指令 格式 为 
beq $tl1, $t2,offset。 为 了 实现 该 指令 ， 我们 必须 将 PC 值 与 符号 扩展 后 的 指令 偏 移 量 字 
段 相 加 以 得 到 分 支 目 标 地 址 。 分 支 指令 ( 见 第 2 章 ) 的 定义 中 有 两 个 需要 注意 的 地 方 : 
。 指令 集 规定 计算 分 支 地 址 时 使 用 的 基地 址 ， 是 分 支 指令 的 下 一 条 指令 的 地 址 。 原 因 是 
我 们 在 取 指 通路 中 计算 了 PC +4 (下 一 条 指令 的 地 址 ) ， 用 这 个 值 作为 计算 分 支 目标 地 
址 时 的 基地 址 比较 容易 实现 。 
。 系统 结构 还 规定 偏 移 量 左 移 2 位 以 指示 以 字 为 单位 的 偏 移 量 ， 这 样 偏 移 量 的 有 效 范 围 
就 扩大 了 4 倍 。 
为 了 处 理 后 面 这 种 情况 ， 我 们 需要 把 偏 移 量 左 移 2 位 。 
除了 计算 分 支 目标 地 址 ， 还 必须 确定 是 顺序 执行 下 一 条 指令 ， 还 是 去 执行 分 支 目标 地 址 处 
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的 指令 。 当 分 支 条 件 为 真 〔 例 如 ,操作 数 相等 ) 时 ,分 支 目 标 地 址 成 为 新 的 PC， 我 们 就 说 分 
支 发 生 (branch taken) 了 。 若 操作 数 不 等 ， 自 增 后 的 PC 将 取代 当前 PC (就 像 其 他 普通 指令 
一 样 ) ， 这 时 就 说 分 支 未 发 生 (branch not taken)。 


多。 分 支 目 标 地 址 : 该 地 址 指定 了 一 个 分 支 ， 如 果 分 支 发 生 ， 那 么 它 将 成 为 新 的 程序 计数 器 
(PC) 。 在 MIPS 架构 中 ， 指 令 偏 移 域 与 分 支 指令 的 下 一 条 指令 地 址 之 和 组 成 分 支 目 标 。 

礼 ”分 支 发 生 : 分 支 条 件 满足 而 PC 变 为 分 支 目标 地 址 的 分 支 。 所 有 的 无 条 件 跳 转 都 是 发 生 的 

分 支 。 村 


多” 分支 未 发 生 : 分 支 条 件 不 满足 而 PC 变 为 分 支 指令 的 下 一 条 指令 地 址 。 


所 以 ， 分 支 数据 通路 需要 进行 两 个 操作 : 计算 分 支 目标 地 址 和 比较 操作 数 。 (很 快 我 们 还 
将 讲 到 ， 分 支 指令 也 影响 数据 通路 的 取 指 部 分 。) 图 4-9 为 分 支 数 据 通路 。 为 计算 分 支 目 标 地 
址 ， 分 支 数据 通路 包含 了 一 个 如 图 4-8 所 示 的 符号 扩展 单元 和 一 个 加 法 器 。 为 了 进行 比较 ， 要 
由 图 4-7a 的 寄存 器 堆 提 供 两 个 寄存 器 操作 数 〈 但 不 需 向 寄存 器 堆 写 人 数据 ) 。 另 外 ， 比 较 可 由 
在 附录 B 设计 的 ALU 完成 。 因 为 ALU 提供 一 个 指示 结果 是 否 为 0 的 输出 信号 ， 故 可 以 把 两 个 
寄存 器 数 作为 输入 ， 并 将 ALU 设置 为 减法 。 若 ALU 输出 的 零 信 号 有 效 ， 则 可 知 两 操作 数 相等 。 
尽管 零 输 出 信号 始终 指示 结果 是 否 为 0， 但 我 们 只 用 它 来 实现 分 支 时 的 等 值 测试 。 稍 后 将 详细 
介绍 将 ALU 用 于 数据 通路 时 ， 怎 样 连接 它 的 控制 信号 。 


MemWrite 





16 符号 32 
扩展 
‘MemRead 
a) 数据 存储 器 单元 b) 符号 扩展 单元 


图 4-8 除了 图 4-7 中 的 寄存 器 堆 和 ALU， 存 储 指令 和 取 数 指令 还 需要 两 个 单元 一 一 数据 存储 器 单元 和 符 
号 扩展 单元 。 数 据 存储 器 单元 是 一 个 状态 单元 ， 两 个 输入 为 地 址 和 所 写 数据 ， 一 个 输出 为 读 出 的 
数据 。 读 、 写 控制 信号 都 是 独立 的 ， 尽 管 任意 时 钟 只 能 激活 其 中 一 个 。 不 像 寄 存 器 ， 存 储 器 单元 
需要 一 个 读 控制 信号 ， 因 为 读 一 个 无 效 地 址 可 能 会 出 问题 ， 我 们 在 第 5 章 会 看 到 这 种 情况 。 符 号 
扩展 单元 有 一 个 16 位 的 输入 ， 符 号 扩展 为 32 位 后 输出 〈 见 第 2 章 ) 。 假 定数 据 存储 器 的 写 是 边 
沿 触发 的 。 标 准 的 存储 芯片 实际 上 有 一 个 写 使 能 信号 用 于 写 操作 。 尽 管 标准 存储 芯片 的 写 使 能 信 
号 不 是 边沿 触发 的 ， 我 们 的 边沿 触发 的 设计 可 以 很 容易 地 应 用 于 真正 的 存储 芯片 。 关 于 存储 器 芯 
片 工 作 细 节 的 讨论 ， 见 附录 了 的 B.8 节 


跳 转 指令 将 偏 移 地 址 的 低 26 位 左 移 两 位 后 ， 以 之 代替 PC 的 低 28 位 。 移 位 通过 给 偏 移 量 
后 面 加 上 两 个 0 实现 (如 第 2 章 所 述 ) 。 


邯 ] 精 解 ” 在 实际 MIPS 指令 集中 ， 分 支 指令 是 “延迟 的 ”， 即 无 论 分 支 条 件 是 否 满足 ， 它 之 
后 的 那 条 指令 总 被 执行 。 条 件 不 满足 时 ， 情 况 与 一 般 分 支 指令 相同 ; 条 件 满足 时 ， 延 退 的 
分 支 指令 先 执 行 它 下 面 的 那 条 指令 ， 然 后 再 跳 转 到 指定 的 目标 地 址 。 将 分 支 指令 设计 为 延 
退 的 原因 是 减轻 流水 线 对 分 支 指令 的 影响 〈 见 4.8 节 )。 为 简单 起 见 ， 本 章 仅 实 现 非 延 退 
的 beq 指令 。 


驴 ”延迟 的 分 支 ; 不 管 分 支 条 件 是 否 满足 ， 分 支 指令 之 后 的 那 条 指令 总 被 执行 的 一 种 分 支 。 





来 自 指令 数据 通路 的 PC+4 





图 4-9 在 分 支 指令 的 数据 通路 中 ,用 ALU 计算 分 支 条 件 是 否 成 立 ， 用 另外 的 加 法 器 将 自 增 后 的 PC 值 与 
符号 扩展 后 左 移 两 位 的 指令 低 16 位 (分 支 偏 移 量 ) 相 加 ， 得 到 分 支 目 标 地 址 。 标 有 “ 左 移 两 
位 ”的 单元 只 是 输入 到 输出 之 间 一 条 简单 的 数据 通路 ， 它 给 符号 扩展 后 的 偏 移 量 字段 的 低位 加 
上 两 个 0 (二 进 制 )。 因 为 “移动 ”的 距离 是 固定 的 ， 所 以 并 不 需要 真正 的 移 位 电路 。 我 们 知道 
偏 移 量 是 从 16 位 扩展 而 来 的 ， 所 以 移 位 只 会 丢掉 “符号 位 ”"。 控 制 逻辑 根据 ALU 的 零 输 出 决定 
是 用 自 增 的 PC 还 是 分 支 目标 地 址 来 取代 当前 的 PC 


创建 一 个 简单 的 数据 通路 


我 们 已 经 讨论 了 不 同 指令 类 型 所 需要 的 数据 通路 单元 ， 可 以 把 它们 连 在 一 起 并 加 上 控制 来 
完成 一 个 最 简单 的 MIPS 子 集 实现 方案 。 这 个 最 简单 的 数据 通路 中 ， 每 个 时 钟 周期 执行 一 条 完 
整 的 指令 。 这 意味 着 每 条 指令 执行 过 程 中 任何 数据 通路 单元 都 只 能 被 用 一 次 ， 如 果 需 要 使 用 多 
次 则 必须 将 该 数据 通路 单元 复制 多 份 。 所 以 我 们 除了 需要 一 个 指令 存储 器 外 ， 还 需要 一 个 数据 
存储 器 。 尽 管 有 的 功能 单元 需要 复制 ， 但 在 执行 不 同 指令 时 ， 很 多 功能 单元 也 可 以 被 共享 。 

为 了 在 两 种 不 同类 型 的 指令 间 共 享 数据 通路 单元 ， 我 们 需要 让 功能 单元 有 多 个 输入 ， 而 使 
用 多 选 器 和 控制 信号 来 从 多 个 输入 中 进行 选择 。 


邯 | 例题 建立 一 个 数据 通路 
算术 逻辑 指令 (或 R 型 指令 ) 的 数据 通路 与 访 存 指令 的 数据 通路 很 相似 。 它 们 的 主要 区 别 为 ; 
。 算术 逻辑 指令 使 用 ALU， 并 且 其 输入 来 自 两 个 寄存 器 。 存 储 指令 也 使 用 ALU 来 进行 地 
址 计算 ， 但 ALU 的 第 二 个 输入 是 对 指令 中 16 位 偏 移 地 址 进行 符号 扩展 后 的 值 。 
。 存 人 目标 寄存 器 中 的 值 来 自 于 ALU (对 R 型 指令 而 言 ) 或 者 存储 器 (对 取 数 操作 而 言 ) 。 
试 设计 存储 指令 和 算术 逻辑 指令 操作 部 分 的 数据 通路 ， 只 能 使 用 一 个 寄存 器 堆 和 一 个 
ALU， 可 增加 必要 的 多 选 器 。 
厂 ] 答案 
为 了 只 用 一 个 ALU 和 一 个 寄存 器 堆 来 创建 一 个 数据 通路 ，ALU 的 第 二 个 输入 和 要 存 人 寄 
存 器 堆 的 数据 都 需要 两 个 不 同 的 来 源 。 所 以 ， 要 在 ALU 的 输入 和 寄存 器 堆 的 输入 数据 处 各 加 
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注 
A 
地 





人 一 个 多 选 器 。 图 4-10 给 出 了 合并 后 的 数据 通路 。 







MemtoReg 
| 





| MemRead 





图 4-10 访 存 指令 和 R 型 指令 数据 通路 的 合并 。 这 个 例子 说 明了 如 何 通过 加 入 多 选 器 将 图 4-7 和 图 
4-8 合并 成 一 个 数据 通路 ， 其 中 增加 了 两 个 多 选 器 OO 

现在 ， 加 上 图 4-6 的 取 指 数据 通路 、 图 4-9 的 分 支 数据 通路 、 图 4-10 的 R 型 指令 和 访 存 指令 
数据 通路 ， 我 们 可 以 把 所 有 部 件 合并 在 一 起 建立 一 个 简单 的 MIPS 体系 结构 数据 通路 ， 如 图 4-11 
所 示 。 由 于 分 支 指令 用 主 ALU 对 寄存 器 操作 数 进行 比较 ， 所 以 还 需要 图 4-9 中 的 加 法 器 完成 分 支 


目标 地 址 的 计算 。 此 外 还 增加 了 一 个 多 选 器 ， 用 于 选择 是 将 顺序 的 指令 地 址 (PC +4) 还 是 分 支 
目标 地 址 写 入 PC。 








MemtoReg 


图 4-11 将 不 同类 型 指令 所 需 的 功能 单元 合并 在 一 起 实现 的 一 个 简单 的 核心 MIPS 系统 结构 数据 通 
路 。 图 中 的 部 件 来 自 图 4-6、 图 4-9 和 图 4-10。 这 个 数据 通路 可 以 在 一 个 时 钟 周期 内 完成 
基本 的 指令 〈 存 取 字 、ALU 操作 和 分 支 ) 。 为 了 支持 分 支 指令 还 增加 了 一 个 额外 的 多 选 
器 。 对 跳 转 指令 的 支持 将 在 以 后 增加 
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在 完成 这 个 简单 的 数据 通路 后 ， 可 以 加 上 控制 单元 。 控 制 单元 必须 能 够 接收 输入 ， 能 够 产 
生 每 个 状态 单元 的 写 信号 、 每 个 多 选 器 的 选择 信号 和 ALU 的 控制 信号。 由 于 ALU 的 控制 比较 
特殊 ， 因 此 最 好 先 设 计 ALU， 随 后 再 设计 控制 单元 的 其 他 部 分 。 


臣 ] 小 测验 

1 . 对 取 数 指令 来 说 ， 以 下 哪个 是 正确 的 ? 参考 图 4-10。 
a。MemtoReg 信号 线 应 该 被 设置 为 将 存储 器 中 的 数据 发 送 至 寄存 器 堆 。 
b，MemtoReg 信号 线 应 该 被 设置 为 将 正确 的 目标 寄存 器 的 数据 发 送 至 寄存 器 堆 。 
c 对 取 数 指令 而 言 ，MemtoReg 信号 线 的 设置 无 关 紧要 。 

I 本 节 描述 的 单 周 期 数据 通路 必须 有 独立 的 指令 存储 器 和 数据 存储 器 ， 因 为 : 
a。MIPS 中 指令 与 数据 的 格式 是 不 同 的 ， 所 以 需要 不 同 的 存储 器 。 
b. 使 用 独立 的 存储 器 会 比较 便宜 。 
c. 因为 处 理 器 在 一 个 周期 内 只 能 操作 每 个 部 件 一 次 ， 而 在 一 个 周期 内 不 可 能 对 一 个 单 

端口 存储 器 进行 两 次 存 取 。 


4. 4 一 个 简单 的 实现 机 制 


在 本 节 中 ， 我 们 将 学 习 如 何 实现 最 简单 的 MIPS 子 集 。 我 们 用 上 一 节 的 数据 通路 和 增加 一 
个 简单 的 控制 单元 来 实现 一 个 MIPS 体系 结构 。 这 一 结构 实现 了 取 字 (lw)、 存 字 (sw)、 相 
等 则 分 支 (beq) 和 算术 逻辑 指令 加 法 (add)、 减 法 (sub)、 与 运算 (AND)、 或 运算 
(OR) 和 小 于 则 置 位 〈set on Less than) ， 后 面 我 们 还 将 实现 跳 转 指令 (j)。 


4.4.1 ALU 控制 
附录 B 中 描述 的 MIPS ALU 在 4 位 控制 信号 上 定义 了 6 种 有 效 的 输入 组 合 : 


0000 减 


与 0110 
0001 或 0111 小 于 则 置 位 
mm | 1 TL 


根据 指令 类 型 的 不 同 ，ALU 将 执行 上 述 5 种 功能 中 的 一 种 。( 或 非 操 作 在 我 们 目前 实现 的 
MIPS 子 集中 暂时 没有 使 用 。) 对 于 取 字 和 存储 字 指 令 ，ALU 用 加 法 计算 存储 器 地 址 。 对 于 R 型 
指令 ,根据 指令 低 6 位 的 funct 字段 ( 见 第 2 章 ) ，ALU 执行 5 种 操作 中 的 一 种 (与 、 或 、 减 、 
加 、 小 于 则 置 位 ) 。 对 相等 则 分 支 指令 ， 由 ALU 执行 减法 操作 。 

使 用 一 个 小 的 控制 单元 即 可 生成 4 位 的 ALU 控制 信号 ， 其 输入 为 指令 的 funet 字段 和 2 位 
的 ALUOp 字段 。ALUOp 指明 要 进行 的 操作 是 存 取 指令 需要 的 加 法 (00)、beq 需要 的 减法 
(01) ， 还 是 由 指令 的 funct 字段 (10) 决定 。 该 ALU 控制 单元 输出 4 位 信号 ， 即 前 面 介 绍 的 
4 位 控制 信号 ， 直 接 对 ALU 进行 控制 。 

图 4-12 说 明了 怎样 根据 2 位 的 ALUOp 和 6 位 的 funct 功能 字段 生成 ALU 的 控制 信号 。 在 
本 章 的 后 面 将 会 看 到 怎样 由 主 控制 单元 生成 ALUOp。 

这 种 多 级 译 码 的 方法 〈 主 控制 单元 生成 ALUOp 作为 ALU 控制 单元 的 输入 ， 再 由 ALU 控制 
单元 生成 真正 控制 ALU 的 信号 ) 是 一 种 常用 的 实现 方式 。 使 用 多 级 译 码 可 以 减 小 主 控制 单元 
的 规模 。 使 用 多 个 小 控制 单元 还 可 能 提高 控制 单元 的 速度 。 这 种 优化 是 很 重要 的 ， 因 为 控制 单 
元 的 性 能 对 时 钟 周期 非常 关键 。 
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指令 操作 到 指令 操作 i 

































































| 取 XXXXXX | 0010 
| 和 00 XXXXXX | i 0010 
| “相等 则 分 支 ol 相等 分 支 XXXXXX 减 下 0110 
| _R 类 型 10 加 100000 加 0010 
R 类 型 10 减 100010 减 0110 
10 与 100100 与 0000 

10 或 100101 或 0001 

10 小 于 则 置 位 101010 小 于 则 置 位 0111 




















图 4-12 如何 根据 ALUOp 控制 位 和 R 型 指令 的 funct 字段 设置 ALU 的 控制 信号 。 第 一 列 是 操作 码 ， 操 作 
码 决定 了 ALUOPp 位 。 所 有 的 编码 以 二 进 制 给 出 。 注 意 ， 当 ALUOp 为 00 或 01 时 ，ALU 的 动作 
不 依赖 于 funct 字段 ， 故 功能 字段 记 为 XXXXXX。 当 ALUOP 为 10 时 ，funct 字段 用 于 设置 ALU 
的 控制 信号 。 详 情 见 附录 B 


有 多 种 不 同方 法 把 2 位 的 ALUOp 和 6 位 的 funct 字段 映射 为 4 位 ALU 控制 信号 。 因 为 funct 
功能 字段 的 64 种 可 能 取 值 中 只 有 很 小 一 部 分 有 意义 ， 并 且 只 有 当 ALUOP 取 值 为 10 时 才 使 用 
功能 字段 ， 我 们 可 以 用 一 个 小 逻辑 单元 去 识别 可 能 取 的 值 ， 以 生成 正确 的 ALU 控制 信和 号。 

为 设计 这 个 逻辑 单元 ， 有 必要 为 ALUOp 和 funct 字段 有 意义 地 组 合生 成 一 张 真 值 表 ， 如 图 
4-13 所 示 。 该 真 值 表 (truth table) 说 明了 如 何 根据 两 个 输入 字段 得 到 4 位 的 ALU 控制 信号 。 
由 于 完整 的 真 值 表 很 大 (2 =256 项 ) ， 我 们 并 不 关心 所 有 的 输入 组 合 ， 只 列 出 了 使 ALU 控制 
信号 有 效 的 部 分 表 项 ， 而 忽略 那些 恒 为 0 或 无 关 的 项 。 在 本 章 中 ,我 们 将 一 直 采 用 这 样 的 方式 
表示 真 值 表 (这 样 做 的 缺点 在 附录 D 的 D. 2 节 中 讨论 ) 。 

由 于 在 许多 情况 下 对 某 些 输入 的 取 值 并 不 关心 ， 为 了 简化 真 值 表 ， 我 们 也 列 出 无 关 项 
(don’ t-care term) 。 真 值 表 中 的 无 关 项 (在 输入 列 中 用 X 表示 ) 表明 ,输出 与 该 列 对 应 的 输入 
取 值 无 关 。 如 图 4-13 的 第 一 列 所 示 ， 当 ALUOp 取 00 时 ， 无 论 funct 字段 取 何 值 ，ALU 控制 总 
为 0010。 这 时 ， 真 值 表 中 此 行 的 funct 字段 就 是 无 关 项 。 在 后 面 ， 还 会 有 另 一 种 无 关 项 的 例子 。 
无 关 项 的 概念 在 附录 B 中 有 更 多 的 讨论 。 


补 ” 真 值 表 : 逻辑 操作 的 一 种 表示 方法 ， 即 列 出 输入 的 所 有 情况 和 每 种 情况 下 的 输出 。 
信 ”无 关 项 : 逻辑 函数 的 一 个 元 素 ， 表 示 输 出 与 该 输入 取 值 无 关 。 无 关 项 可 以 用 不 同 的 方式 指定 。 


真 值 表 建 好 以 后 ， 可 以 进行 优化 并 转化 成 门 电路 。 这 是 一 个 完全 机 械 的 过 程 。 所 以 将 此 过 
程 及 其 结果 放 在 附录 D 中 的 D. 2 节 讨 论 。 


ALUOp Bunet 字段 





人 
























































图 4-13 4 位 ALU 控制 信号 ( 称 为 操作 ) 的 真 值 表 。 该 真 值 表 的 输入 为 ALUOp 和 funct 字段 。 在 此 只 列 
出 了 ALU 控制 有 效 的 项 ， 也 包括 一 些 无 关 项 。 例 如 ，ALUOp 不 使 用 编码 11， 故 真 值 表 包 含 1X 
和 Xl 项 ,而 不 是 10 和 01 项 。 同样， 当 使 用 funct 字段 时 指令 的 前 两 位 (F4 和 F5) 总 是 10， 
所 以 它们 是 无 关 项 ， 在 真 值 表 中 用 XX 代替 
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4. 4. 2 主 控制 单元 的 设计 


我 们 已 经 描述 了 如 何 使 用 funct 和 2 位 信号 作为 输入 来 进行 ALU 控制 单元 的 设计 ， 现 在 来 
看 看 控制 的 其 他 部 分 。 在 开始 之 前 ， 首 先 看 一 条 指令 的 各 个 字段 和 图 4-11 所 示 的 数据 通路 所 
需 的 控制 信号 。 为 了 理解 怎样 将 指令 的 各 个 字段 与 数据 通路 相连 ,需要 复习 一 下 三 种 指令 类 型 
的 格式 : R 型 指令 、 分 支 指令 和 存 取 指 令 ， 如 图 4-14 所 示 。 


图 4-14 


人 


字段 | 0 ml | md | shm | foc | 


比特 位 位 置 31:26 25:21 20:16 15:11 10:6 5:0 
a) R 型 指令 


:县 rl sm | rr | MW 


比特 位 位 置 31:26 25:21 20:16 15:0 
b) 存 取 指 令 


字段 


比特 位 位 置 31:26 25:21 20:16 15:0 
c) 分 支 指令 


三 种 指令 类 型 (R 型 、 存 取 和 分 支 ) 使 用 的 两 种 指令 格式 。 后 面 我 们 马上 会 讲 到 ， 跳 转 指令 使 
用 另 一 种 格式 。a) R 型 指令 的 格式 ， 操 作 码 为 0， 寄 存 器 操作 数 有 3 个 : rs、rt 和 rd。rs 和 rt 
字段 为 源 操作 数 ，rd 字段 为 目的 操作 数 。funct 字段 指出 ALU 功能 ， 由 前 面 设 计 的 ALU 控制 单 
元 译 码 。 我 们 实现 的 R 型 指令 有 add .sub .AND .OR 和 slt。shamt 字段 只 用 于 移 位 指令 ， 本 章 
中 暂 不 考虑 。b) 取 数 指令 (操作 码 =35o) 和 存储 指令 (操作 码 =43o) 的 格式 。rs 寄存 器 作 
为 基 址 与 16 位 的 地 址 字段 相 加 以 得 到 访 存 地 址 。 对 取 数 指令 ,rt 是 取出 数据 的 目的 寄存 器 。 对 
存储 指令 ,rt 是 要 存 人 存储 器 的 数据 所 在 的 寄存 器 。c) 相等 则 分 支 指令 (操作 码 =4) 的 格 
式 。rs 和 tt 是 源 寄存 器 ， 用 于 比较 是 否 相 等 。16 位 地 址 进行 符号 扩展 、 移 位 后 与 PC +4 相 加 以 
得 到 分 支 目标 地 址 


MIPS 的 指令 格式 遵循 以 下 规则 : 


Op 字段 ， 第 2 章 亦 称 操作 码 (opcode) ， 总 是 为 31:26 位 。 我 们 将 用 Op[5:0] 来 表示 。 
对 于 R 型 指令 、 分 支 指令 和 存 取 指 令 ， 要 读 取 的 两 个 寄存 器 为 和 字段 ,分别 为 5:21 
位 和 20:16 位 。 

存 取 指令 的 基 址 寄存 器 在 25:21 位 中 (rs 字段 ) 。 

相等 则 分 支 指令 、 存 取 指 令 的 16 位 偏 移 量 在 15:0 位 中 。 

有 两 个 地 方 存放 目标 寄存 器 。 对 取 数 指令 为 20:16 位 (rt 字段 )， 对 R 型 指令 为 15: 
11 位 (rd 字段 ) 。 所 以 我 们 需要 一 个 多 选 器 ， 以 指示 要 写 的 寄存 器 号 在 哪个 字段 中 。 


操作 码 : 指示 指令 操作 和 格式 的 字段 。 


从 第 2 章 得 到 的 第 一 个 设计 原则 


简单 源 于 规整 一 一 在 这 里 就 体现 出 来 了 。 





根据 上 述 信息 ， 可 以 给 简单 的 数据 通路 加 上 指令 标记 并 增加 一 个 多 选 器 〈 用 于 选择 寄存 器 
堆 的 写 寄存 器 号 ) ， 图 4-15 展示 了 这 些 增加 的 部 件 和 ALU 控制 块 、 状 态 单元 的 写 信和 号、 数据 存 
储 器 的 读 信号 和 多 路 选择 器 的 控制 信号 。 由 于 所 有 的 多 路 选择 器 都 是 两 个 输入 端 ， 因 此 每 个 多 
路 选择 器 都 需要 一 条 单独 的 控制 线 。 

图 4-15 给 出 了 7 个 1 位 控制 信号 和 2 位 ALUOP 控制 信号 。 我 们 已 经 说 明了 ALUOp 控制 信 
号 如 何 工 作 ， 在 继续 说 明 指 令 执行 过 程 中 如 何 设置 这 些 控制 信号 之 前 ， 最 好 定义 一 下 其 他 7 条 
控制 信号 如 何 工 作 。 图 4-16 说 明了 这 7 个 控制 信号 的 功能 。 
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在 图 4-11 的 数据 通路 上 增加 了 所 有 必需 的 多 选 器 ， 并 标识 出 了 所 有 的 控制 信号 。 控 制 信 
号 以 灰色 线 表示 。 还 增加 了 ALU 控制 单元 。PC 不 需要 写 控制 ， 因 为 它 在 每 个 时 钟 周期 末 
都 被 写 入 一次。 分 支 控制 逻辑 决定 给 PC 自 增 还 是 写 人 分 支 目标 地 址 





























RegDst 写 寄存 器 的 目标 寄存 器 号 来 自 t 字 段 (位 20: 16) | ” 写 寄存 器 的 目标 寄存 器 号 来 自 忆 字段 (位 15:11) 
RegWrite | 无 寄存 器 堆 写 使 能 有 效 
Aruse | (入 a 操作 数 来 自 寄存 器 堆 的 第 一 个 输出 | 。 第 二 个 ALU 操作 数 为 指令 低 16 位 的 符号 扩展 
PCsre PC 由 PC+4 取 代 PC 由 分 支 目标 地 址 取代 
er 数据 存储 器 读 使 能 有 效 
ES 将 写 和 数据 输入 端的 数据 写 人 到 用 地 址 指定 
| 存储 器 单元 中 取 
| MemtoReg “| 写 入 寄存 器 的 数据 来 自 ALU 写 人 寄存 器 的 数据 来 自 数据 存储 器 














图 4-16 7 个 控制 信号 的 作用 。 当 两 路 多 选 器 的 控制 信号 有 效 时 ， 选 择 第 1 个 输入 ， 否 则 选择 第 0 个 输 

人 。 需 要 注意 的 是 ， 所 有 状态 单元 都 有 一 个 默认 输入 一 一 时 钟 信号 ， 且 用 于 写 操作 的 控制 。 时 

钟 信号 从 来 不 在 状态 单元 之 外 通过 任何 门 电路 ， 因 为 这 样 可 能 导致 时 序 问题 (附录 B 中 对 此 问 

题 有 进一步 的 讨论 。) 

了 解 了 每 个 控制 信号 的 功能 之 后 ， 再 来 看 看 它们 如 何 设 置 。 除 PCSre 控制 信号 外 ， 所 有 控 

制 信号 都 可 由 控制 单元 只 根据 指令 的 操作 码 来 确定 。 而 PCSre 信号 有 效 的 条 件 是 指令 为 相等 则 

分 支 (由 控制 单元 确定 ) ， 且 用 于 等 值 比较 的 ALU 的 零 输出 有 效 。 为 生成 PCSre 信号 ， 需 将 一 
个 来 自控 制 单元 称 为 “Branch” (分支 ) 的 信号 与 ALU 的 零 输出 信号 相 “ 与 ”。 

现在 ,这 9 位 控制 信号 (图 4-16 的 7 位 和 2 位 ALUOp) 的 状态 可 根据 控制 单元 的 

6 位 输入 信号 (操作 码 位 31:26) 来 设置 。 图 4-17 给 出 了 包含 控制 单元 和 控制 信号 的 数 











据 通路 。 

在 设计 控制 单元 的 计算 公式 或 真 值 表 之 前 ， 这 里 定义 一 下 控制 功能 。 由 于 控制 信号 的 状态 
仅 由 操作 码 决定 ,我们 需要 定义 在 每 种 操作 码 下 每 个 控制 信号 的 取 值 : 0、1 或 任意 值 X。 根 据 
图 4-12、 图 4-16 和 图 4-17， 图 4-18 定义 了 对 应 于 每 种 操作 码 的 控制 信号 状态 。 
1. 数据 通路 的 操作 

根据 图 4-16 和 图 4-18 包含 的 信息 ， 可 以 设计 出 控制 单元 逻辑 ,但 在 此 之 前 先 分 析 一 下 每 
条 指令 是 如 何 使 用 数据 通路 的 。 接 下 来 的 一 些 图 说 明了 3 种 类 型 的 指令 在 数据 通路 上 的 执行 过 
程 。 在 这 些 图 中 ， 有 效 的 控制 信号 和 数据 通路 部 件 已 着 重 标 出 。 需 要 注意 的 是 ， 对 于 多 选 器 其 
控制 为 0 时 ， 即 使 其 控制 信号 没有 着 重 标 出 ， 它 也 有 相应 的 动作 。 对 于 多 位 信号 ， 只 要 其 中 任 
何 信号 有 效 ， 就 将 其 着 重 标 出 。 
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图 4-17 包含 控制 单元 的 简单 数据 通路 。 控 制 单元 的 输入 为 指令 的 6 位 操作 码 。 控 制 单元 的 输出 包括 3 
个 控制 多 选 器 的 1 位 信号 (RegDst、ALUSrc 和 MemtoReg) ，3 个 控制 寄存 器 堆 和 存储 器 读 写 的 
信和 号 (RegWrite、MemRead 和 MemWrite) ， 一 个 决定 是 否 可 以 转移 的 1 位 信号 (Branch)， 和 
一 个 ALU 的 2 位 控制 信号 (ALUOp)。 分 支 控 制 信号 与 ALU 的 零 输出 一 起 送 入 一 个 与 门 ， 其 
输出 控制 下 一 个 PC 的 选择 。 注 意 PCSre 是 一 个 间接 信号 ， 而 不 是 从 控制 单元 直接 得 来 。 所 以 
在 图 中 我 们 没有 标 出 这 个 信号 名 称 
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图 4-18 按 指 令 操 作 码 设置 的 控制 信号 。 表 的 第 一 行 对 应 于 R 型 指令 (add、sub、AND、0OR 和 slt) : 
源 寄存 器 字段 都 为 rs 和 rt， 目 的 寄存 器 字段 为 rd， 这 决定 了 ALUSre 和 RegDst 信号 如 何 设置 ; 
并 且 ，R 型 指令 写 寄存 器 ( RegWrite =1) ， 但 是 不 读 写 数据 存储 器 。 当 Branch 控制 信号 为 0 时 ， 
PC 无 条 件 地 由 PC +4 取代 ; 反之 ， 如 果 ALU 的 零 输 出 也 为 高 ， 则 PC 由 分 支 目标 地 址 取代 。 当 
R 型 指令 的 ALUOP 为 10 时 ，ALU 的 控制 信号 应 由 funct 字段 生成 。 本 表 的 第 二 行 和 第 三 行 给 出 
了 lw、sw 指令 的 控制 信号 设置 : ALUSre 和 ALUOp 被 设 为 进行 地 址 计算 ; MemRead 和 Mem- 
Write 被 设 为 进行 存储 器 访问 ; 最 后 ，RegDst 和 RegWrite 被 设 为 在 装载 指令 中 将 结果 存 人 寄存 
器 t 中。 分 支 指令 与 R 型 指令 相似 ， 因 为 它 将 寄存 器 rs 和 rt 送 入 ALU: 分 支 指令 的 ALUOP 字 
段 被 设 为 进行 减法 (ALUOp =01) ， 以 进行 等 值 的 测试 。 注 意 ，RegWrite =0 时 MemtoReg 的 设 
置 无 关 紧要 一 一 因为 寄存 器 没有 被 写 人 ， 寄 存 器 写 端口 的 数据 值 不 被 使 用 ， 所 以 最 后 两 行 
MemtoReg 的 值 由 于 不 被 关心 而 用 X 取代 。RegWrite =0 时 ，RegDst 的 值 也 可 用 X 取代 。 这 种 无 
关 项 必须 由 设计 者 加 入 ， 因 为 它 依赖 于 对 数据 通路 工作 原理 的 了 解 


图 4-19 给 出 了 执行 R 型 指令 (如 adq $t1, $t2,$t3) 时 的 数据 通路 操作 。 尽 管 一 切 都 
发 生 在 一 个 时 钟 周期 内 ， 但 我 们 可 以 考虑 分 4 步 来 执行 指令 ， 具体 如 下 : 

1) 从 指令 存储 器 中 取出 指令 ，PC 自 增 。 

2) 从 寄存 器 堆 中 读 出 寄存 器 $t2 和 $t3。 同 时 ， 主 控制 单元 计算 出 各 控制 信号 的 状态 。 

3) ALU 根据 funct 字段 (指令 的 5:0 位 ) 确定 ALU 的 功能 ， 对 从 寄存 器 堆 读 出 的 数据 进 
行 操 作 。 

4) 将 ALU 的 结果 写 人 寄存 器 堆 ， 根 据 指令 的 15 :11 位 选择 目标 寄存 器 ( $tl ) 。 
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图 4-19 ”执行 R 型 指令 (如 adqd $t1，$t2，$t3) 时 数据 通路 的 操作 。 操 作 中 用 到 的 控制 信 
号 、 数 据 通路 单元 和 连接 均 用 灰色 线 显示 
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我 们 可 以 用 和 图 4-19 类 似 的 方式 描述 取 数 指令 (如 lw $tl,offset($t2)) 的 执行 。 

图 4-20 给 出 了 取 数 时 有 效 的 功能 单元 和 控制 信和 号。 可 以 考虑 将 取 数 指令 的 执行 分 为 5 步 (与 

将 R 型 指令 的 执行 分 为 4 步 类 似 ): 
1) 从 指令 存储 器 取 指 ，PC 自 增 。 | 
2) 从 寄存 器 堆 读 出 寄存 器 $t2 的 值 。 人 
3) ALU 将 从 寄存 器 堆 读 出 的 值 与 符号 扩展 后 的 指令 低 16 位 值 (offset) 相 加 。 266 
4) 将 ALU 的 结果 作为 数据 存储 器 的 地 址 。 
5) 存储 单元 的 数据 写 和 寄存 器 堆 ， 目 标 寄存 器 由 指令 的 20:16 位 〈$t1) 指出 。 
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图 4-20 ”执行 取 数 指令 时 数据 通路 的 操作 。 操 作 中 用 到 的 控制 信号 、 数 据 通路 单元 和 连接 用 灰色 线 显 
示 。 存 储 指令 的 操作 与 此 类 似 。 主 要 区 别 在 于 数据 存储 器 的 控制 将 指明 要 进行 写 操 作 ， 而 不 是 
读 操作 ， 读 出 的 第 二 个 寄存 器 的 值 将 作为 要 存储 的 数据 ， 并 且 不 会 有 将 数据 存储 器 的 内 容 写 人 
寄存 器 的 操作 


最 后 ， 以 同样 方式 说 明 相 等 则 分 支 指 令 (如 beq $t1、$t2 .offset) 的 执行 过 程 。 它 的 
操作 类 似 于 R 型 指令 , 但 ALU 的 零 输 出 用 于 决定 PC 自 增 为 PC +4 还 是 置 为 分 支 目标 地 址 。 图 
4-21 给 出 了 执行 的 4 步 : 

1) 从 指令 存储 器 中 取 指 ，PC 自 增 。 

2) 从 寄存 器 堆 读 出 寄存 器 $tl 和 $t2 的 值 。 

3) ALU 将 从 寄存 器 堆 读 出 的 两 数 相 减 。PC +4 的 值 与 符号 扩展 并 左 移 2 位 后 的 指令 低 16 
位 (offset) 相 加 ， 结 果 即 分 支 目 标 地 址 。 

4) 根据 ALU 的 零 输出 决定 哪个 加 法 器 的 结果 存 人 PC 中 。 
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图 4-21 执行 相等 则 分 支 指令 时 数据 通路 的 操作 。 控 制 信号 、 数 据 通路 单元 和 连接 使 用 灰色 线 显示 。 在 
使 用 寄存 器 堆 和 ALU 进行 比较 操作 之 后 ，ALU 的 零 输出 用 于 在 两 种 可 能 的 PC 中 选择 其 一 


2. 控制 的 结束 

讨论 过 指令 的 操作 之 后 ， 现 在 继续 讨论 控制 单元 的 实现 。 控 制 单元 的 功能 可 由 图 4-18 精 
确定 义 ， 其 输入 为 6 位 操作 码 0p15:0] ， 输 出 为 控制 信和 号。 这 样 ， 可 以 基于 操作 人 码 的 二 进 制 编 
码 为 每 个 输出 建立 一 张 真 值 表 。 

根据 这 些 信息 ， 可 以 把 控制 单元 (包括 所 有 输出 的 逻辑 综合 ) 描述 在 一 张大 的 真 值 表 中 ， 
如 图 4-22 所 示 。 它 完整 地 描述 了 控制 功能 ,可 以 自动 地 转换 为 门 电路 实现 ， 附 录 DD 的 D.2 和 节 
对 此 进行 了 描述 。 


























| Op5 0 0 

| Op4 | 0 0 
Op3 0 
输入 Op2 | 0 
Opl | 0 
Op0 | 0 





图 4-22 简单 的 单 周期 实现 的 控制 功能 真 值 表 。 表 的 上 半 部 分 为 输入 ， 其 包括 操作 码 (对 应 于 指令 的 
31:26 位 的 Op[5:0]) 的 4 种 组 合 。 表 的 下 半 部 分 为 4 种 组 合 的 输出 。 因 此 ，RegWrite 对 于 两 
种 不 同 的 输入 组 合 是 有 效 的 。 如 果 只 考虑 这 张 表 中 的 4 个 操作 码 ， 则 可 以 用 输入 部 分 的 无 关 项 
简化 真 值 表 。 例 如 ， 可 以 由 表达 式 0p5，0p2 确 定 是 否 为 R 型 指令 ， 因 为 这 已 经 足够 将 R 型 指 
令 与 lw、sw 和 beq 指令 区 分 开 。 之 所 以 不 用 这 种 简化 ， 是 因为 在 MIPS 指令 集 的 完整 实现 中 
会 用 到 其 他 操作 码 
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图 4-22  ( 续 ) 


既然 我 们 已 经 有 了 包含 MIPS 核心 指令 集中 绝 大 多 数 指令 的 单 周 期 实现 (single-cycle imple- 
mentation ) ， 在 此 基础 之 上 我 们 再 加 上 跳 转 指令 ， 看 看 怎样 通过 扩展 基本 数据 通路 和 控制 通路 ， 
来 实现 指令 集中 的 其 他 指令 。 


定单 周期 实现 : 也 被 称 为 单 时 钟 周 期 实现 (single clock cycle implementation ) ， 即 一 个 时 钟 周 
期 执行 一 条 指令 的 实现 机 制 。 虽 然 它 很 容易 理解 ， 但 现实 中 ， 由 于 它 太 慢 而 不 实用 。 


著 | 例题 跳 转 的 实现 
图 4-17 给 出 了 第 2 章 中 提 到 的 许多 指令 的 实现 ， 但 没有 给 出 跳 转 指令 的 实现 。 请 对 图 4-17 
的 数据 通路 和 控制 通路 进行 扩展 ， 从 而 支持 跳 转 指令 ， 并 给 出 控制 信号 的 设置 方式 。 


oo 答案 

跳 转 指令 类 似 于 分 支 指令 ,但 它 以 不 同 的 方式 计算 目标 PC， 且 是 无 条 件 的 。 与 分 支 指令 
一 样 ， 跳 转 地 址 的 最 低 两 位 恒 为 00,。32 位 跳 转 地 址 的 次 低 26 位 来 自 指令 的 26 位 立即 数 ， 如 
图 4-23 所 示 。 跳 转 地 址 的 高 4 位 来 自 于 跳 转 指令 的 PC +4。 也 就 是 说 ， 实 现 跳 转 指令 即将 下 面 
3 个 部 分 拼接 为 跳 转 地 址 : 

。 当前 PC +4 的 高 4 位 (下 条 指令 地 址 的 31:28 位 )。 

。 跳 转 指 令 的 26 位 立即 数字 段 。 

。 低位 00,。 


i 


位 的 位 置 31:26 25:0 
4-23” 跳 转 指 令 的 格式 (操作 码 =2)。 跳 转 指令 的 目的 地 址 由 当前 PC +4 的 高 4 位 与 跳 转 指令 中 的 
26 位 地 址 连接 ， 再 将 00 作为 最 低 两 位 形成 


图 4-24 所 示 为 在 图 4-17 基础 上 增加 了 对 跳 转 指令 的 支持 。 为 了 在 PC +4、 分 支 目标 PC 和 
跳 转 目标 PC 中 选择 新 PC 值 的 来 源 ， 加 上 了 一 个 多 选 器 。 这 个 多 选 器 需要 一 个 控制 信号 Jump。 
只 有 当 操作 码 为 2， 即 指令 为 跳 转 指令 时 ， 该 控制 信号 才 有 效 。 0 


4.4.3 为 什么 不 使 用 单 周 期 实现 方式 


虽然 单 周期 设计 也 可 以 正确 地 工作 ， 但 现代 设计 中 并 不 采取 这 种 方式 ， 因 为 它 的 效率 太 
低 。 究 其 原因 ， 是 在 单 周 期 设计 中 ， 时 钟 周期 对 所 有 指令 等 长 ， 这 样 时 钟 周期 要 由 执行 时 间 最 
长 的 那 条 指令 决定 。 这 条 指令 几乎 可 以 肯定 是 取 数 指令 ， 它 依次 使 用 了 5 个 功能 单元 : 指令 存 
储 器 、 寄 存 器 堆 、ALU 、 数 据 存储 器 、 寄 存 器 堆 。 虽 然 CPI 为 1 ( 见 第 1 章 )， a 
的 总 体 性 能 并 不 一 定 很 好 ， 因 为 时 钟 周期 实在 是 太 长 了 。 
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图 4-24 扩展 后 能 处 理 跳 转 指令 的 简单 控制 和 数据 通路 。 加 入 了 一 个 多 选 器 (右上 角 ) 用 来 选择 分 支 目 
标 地 址 、 跳 转 目 标 地 址 和 下 一 指令 地 址 三 者 之 一 。 该 多 选 器 由 Jump 信和 号 控制 。 跳 转 目标 地 址 
通过 将 jump 指令 中 低 26 位 地 址 左 移 两 位 ， 从 而 高 效 地 增加 00 作为 低位 ， 然 后 将 PC +4 的 高 4 
位 作为 高 位 ， 从 而 产生 32 位 地 址 


使 用 单 周期 设计 的 代价 虽然 很 大 ， 但 对 于 小 指令 集 来 说 ， 或 许 是 可 以 接受 的 。 事 实 上 ， 早 
期 具有 简单 指令 集 的 计算 机 就 曾经 采用 过 这 种 实现 方式 。 然 而 ， 若 要 实现 包含 浮 点 或 更 复杂 指 
令 的 指令 集 ， 这 样 的 单 周期 设计 根本 不 能 胜任 。 

因为 时 钟 周期 必须 满足 所 有 指令 中 最 坏 的 情况 ， 故 不 能 使 用 那些 缩短 常用 指令 执行 时 间 而 不 改 
善 最 坏 情况 的 实现 技术 。 这 样 ， 单 周期 实现 方式 违背 了 第 1 章 中 加 速 大 概率 事件 这 一 设计 原则 。 

在 下 一 节 ， 我 们 将 看 到 一 种 称 为 流水 线 的 实现 技术 ， 使 用 与 单 周期 类 似 的 数据 通路 ， 但 效 
率 更 高 。 从 方法 来 说 ， 流 水 线 是 通过 重叠 多 条 指令 的 执行 来 提高 效率 的 。 


贸 | 小 测验 


观察 图 4-22 中 的 控制 信号 ， 你 能 在 其 基础 上 进行 整合 吗 ” 其 中 是 否 有 控制 信号 可 以 被 其 
他 控制 信号 取 反 来 替代 〈 提 示 : 将 无 关 项 考虑 进去 )? 如 果 有 ， 不 加 反 向 器 是 否 可 以 直接 用 一 
个 控制 信号 替代 另 一 个 呢 ? 


4.5 流水 线 概述 


绝对 不 要 浪费 时 间 。 
一 一 美 图 请 说 
流水 线 (pipelining) 是 一 种 实现 多 条 指令 重合 执行 的 技术 。 目 前 ,流水线 技术 广泛 应 用 。 
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2 流水线: 一 种 实现 多 条 指令 重 登 执行 的 技术 ,与 生产 流水 线 类 似 。 


本 节 对 流水 线 的 概念 及 其 相关 问题 进行 了 概述 。 如 果 只 是 想 对 流水 线 技术 有 一 个 大 致 的 了 
解 ， 可 以 详细 看 完 本 节 ， 然 后 直接 跳 到 4. 10 节 和 4. 11 节 学 习 在 最 近 的 处 理 器 (Intel Core i7 和 
ARM Cortex- A8) 中 所 使 用 的 高 级 流水 线 技术 。 如 果 想 深入 了 解 基于 流水 线 技术 的 计算 机 ， 
4.6 ~4.9 节 给 出 了 相关 细节 。 

任何 一 个 经 常 光顾 洗衣 店 的 人 都 会 不 自觉 地 使 用 流水 线 技术 。 非 流水 线 方式 的 洗衣 过 程 包 
括 如 下 几 个 步 又 : 

1) 把 一 批 脏 衣服 放 人 洗衣 机 里 清洗 。 

2) 洗衣 机 洗 完 后 ， 把 衣服 取出 并 放 入 烘 干 机 中 。 

3) 烘 干 衣服 后 ， 将 衣服 从 烘 干 机 中 取出 ， 然 后 放 在 桌子 上 郑 起 来 。 

4) 和 好 衣服 后 ， 请 你 的 室友 帮忙 把 桌子 上 的 衣服 收 好 。 

当 你 的 室友 把 这 批 干 净 衣 服从 桌子 上 拿 走 后 ， 再 开始 洗 下 一 批 脏 衣服 。 

采用 流水 线 的 方法 将 节省 大 量 的 时 间 ， 如 图 4-25 所 示 。 当 把 第 一 批 脏 衣服 从 洗衣 机 里 取 
出 放 入 烘 干 机 之 后 ， 就 可 以 把 第 二 批 脏 衣服 放 入 洗衣 机 里 进行 清洗 了 。 当 第 一 批 衣服 被 烘 干 之 
后 ， 就 可 以 将 它们 释 起 来 ， 同 时 把 洗 净 的 下 一 批 湿 衣 服 放 入 烘 干 机 中 ， 同 时 再 将 下 一 批 脏 衣 服 
放 入 洗衣 机 里 清洗 。 接 着 让 你 的 室友 把 第 一 批 衣服 从 桌子 上 收 好 ， 而 你 开始 释 第 二 批 衣服 ， 这 
时 烘 干 机 中 放 的 是 第 三 批 衣服 ， 同 时 可 以 把 第 四 批 脏 衣 服 放 入 洗衣 机 清洗 了 。 这 样 ， 所 有 的 洗 
衣 步 又 (流水线 的 步骤 ) 都 在 同时 操作 。 只 要 在 每 一 个 操作 步骤 中 都 有 独立 的 工作 单元 时 ， 
我 们 就 可 以 采用 流水 线 的 方式 来 快速 完成 任务 了 。 

流水 线 的 奇妙 之 处 在 于 ， 对 于 单独 的 一 批 衣 服 来 说 ， 从 它 进 洗衣 机 到 烘 干 机 ， 再 到 折 玛 、 
收拾 ， 整 个 过 程 总 的 处 理 时 间 并 没有 缩短 。 而 在 有 多 批 任务 时 流水 线 之 所 以 快 的 原因 是 所 有 的 
工作 都 在 并 行 地 进行 。 因 此 ， 单 位 时 间 内 能 够 完成 的 工作 量 就 大 大 地 增加 了 。 流 水 线 实际 上 是 
改善 了 洗衣 系统 的 春 吐 率 。 虽 然 洗 每 一 件 衣 服 的 时 间 没 有 缩短 ， 但 如 果 有 很 多 衣服 要 洗 ， 吞 吐 
率 的 改善 就 减少 了 完成 整个 工作 的 时 间 。 

如 果 所 有 的 步骤 所 需 的 时 间 一 样 ， 并 且 有 足够 的 工作 可 做 ， 那 么 从 流水 线 得 到 的 速度 提高 
倍数 等 于 流水 线 中 步 又 的 数目 ， 洗 衣 房 的 例子 是 4 倍 清洗 、 烘 干 、 折 释 和 收拾 。 采 用 流水 线 
方式 工作 与 非 流水 线 方式 工作 的 洗衣 房 相 比 在 速度 上 提高 了 4 倍 : 前 者 洗 完 20 批 衣服 所 需 的 
时 间 是 洗 完 一 批 衣服 所 需 时 间 的 5 倍 ， 而 后 者 洗 完 20 批 衣服 所 需 的 时 间 是 洗 完 一 批 衣服 的 20 
倍 。 在 图 4-25 中 ,流水 线 方式 只 将 处 理 速度 提高 了 2. 3 倍 的 原因 是 图 中 只 显示 了 清洗 4 批 衣服 


的 处 理 过 程 。 注 意图 4-25 中 的 流水 线 版 本 在 开始 和 结束 阶段 的 负载 情况 ， 可 以 看 出 其 流水 线 


未 完全 充满 。 当 任务 数量 相对 于 流水 线 级 数 不 是 很 大 时 ， 突 然 启 动 和 逐渐 结束 会 影响 流水 线 的 
性 能 。 在 本 例 中 ， 如 果 任 务 数量 远大 于 4， 那 么 绝 大 多 数 时 候 流 水 线 都 将 是 充满 的 ， 这 时 吞吐 
率 的 提升 就 非常 接近 于 4 倍 。 

同样 的 原理 也 可 以 应 用 到 处 理 器 中 ， 即 采用 流水 线 方式 执行 指令 。 通 常 ， 一 个 MIPS 指令 
包含 如 下 5 个 处 理 步 又 : 

1) 从 指令 存储 器 中 读 取 指令 。 

2) 指令 译 码 的 同时 读 取 寄存 器 。MIPS 的 指令 格式 允许 同时 进行 指令 译 码 和 读 寄 存 器 。 

3) 执行 操作 或 计算 地 址 。 

4) 从 数据 存储 器 中 读 取 操作 数 。 

5) 将 结果 写 回 寄存 器 。 

因此 ， 本 章 讨 论 的 MIPS 流水 线 具 有 5 个 处 理 步 又 。 正 如 流水 线 能 加 速 洗衣 店 的 工作 一 样 ， 
下 面 的 例子 将 说 明 流水 线 如 何 加 快 指令 的 总 体 执行 时 间 。 
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图 4-25 ”以 洗衣 店 为 例 类 比 流水 线 的 动作 过 程 。 安 妮 、 布 朗 、 凯 西 和 唐 每 个 人 都 有 一 些 脏 衣服 要 清洗 、 
烘 干 、 折 又 及 收拾 。 洗 衣 机 、 烘 干 机 、“ 折 至 机 ”和 “收拾 机 ”每 个 都 需要 30 分 钟 来 完成 各 自 
的 任务 。 顺 序 的 洗涤 方法 将 花费 8 小 时 的 时 间 洗 完 4 批 衣服 ， 而 流水 线 的 洗涤 方法 只 需要 花费 
3.5 小 时 。 图 中 在 二 维 时 间 线 中 通过 资源 的 4 次 复制 给 出 了 不 同 工 作 负载 的 流水 级 ， 事 实 上 每 
种 资源 只 有 一 个 


lo 例题 。 单 周期 指令 模型 与 流水 线性 能 

为 了 使 问题 具体 化 ， 我 们 首先 创建 一 个 流水 线 结构 。 在 本 例 以 及 本 章 剩余 的 部 分 中 ， 我 们 
将 只 考虑 以 下 8 条 指令 : 取 字 (1w)、 存 字 (sw)、 加 (add)、 减 (sub). 与 (AND)、 或 
(OR) 、 小 于 则 置 位 (slt) 和 相等 则 分 支 (beq)。 

本 例 将 比较 流水 线 指令 执行 与 单 周 期 指令 执行 的 平均 执行 时 间 ， 其 中 在 单 周 期 模型 中 所 有 
指令 的 执行 都 花费 一 个 时 钟 周期 。 假 设 主 要 功能 单元 的 操作 时 间 为 存储 器 访问 : 200ps; ALU 
操作 : 200ps; 寄存 器 堆 的 读 写 : 100ps。 在 单 周期 模型 中 ， 每 一 条 指令 都 只 花费 一 个 时 钟 周 
期 ， 因 此 ， 时 钟 周 期 必须 满足 最 慢 的 指令 。 


邯 ] 答案 

8 条 指令 中 每 一 条 指令 所 需要 的 执行 时 间 如 图 4-26 所 示 。 单 周期 模型 的 设计 必须 考虑 到 最 
慢 的 指令 ， 在 图 4-26 中 是 1w， 因 此 ， 每 一 条 指令 所 需要 的 执行 时 间 为 800ps。 与 图 4-25 类 似 ， 
图 4-27 比较 了 三 条 取 数 指令 非 流水 线 与 流水 线 方式 的 执行 过 程 ， 其 中 在 非 流水 线 方式 中 ， 第 
一 条 与 第 四 条 指令 之 间 的 时 间 差 是 3 x800ps =2 400ps。 


















取 字 (1w) 200ps | 100ps 
存 字 (sw) 200ps lo0ps | 200ps | 200ps | | 
R 型 (adadd、sub、RAND、OR、slt) 200ps | 100ps | 200ps 





分 支 (beq) | 200ps | 100ps | 200ps 


图 4-26 根据 各 功能 单元 所 需 时 间 计 算出 来 的 每 条 指令 的 总 执行 时 间 。 假 设 多 选 器 、 控 制 单元 、PC 
访问 和 符号 扩展 单元 都 没有 延 时 
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程序 执行 顺序 
( 按 指令 序 ) 
lw $1,100¢$0) 


lw $2,200 ($0) 





lw $3,300 ($0) 








200ps 200ps 0 200ps 200ps 200ps 
图 4-27 单 周 期 、 非 流水 线 的 指令 执行 过 程 (上 图 ) 与 流水 线 的 指令 执行 过 程 (下 图 )。 两 者 采用 相同 
的 功能 单元 ， 各 功能 单元 的 处 理 时 间 如 图 4-26 所 示 。 在 这 种 情况 下 ， 指 令 的 执行 速度 提高 了 
4 倍 ， 即 从 800ps 降 到 了 200ps。 将 本 图 与 图 4-25 比较 。 在 洗衣 服 的 例子 中 ， 我们 假设 所 有 步 
又 需要 的 处 理 时 间 都 是 相等 的 。 如 果 烘 干 机 运行 得 最 慢 ， 那 么 就 把 烘 干 的 时 间 设 定 为 一 个 步 
又 需要 的 处 理 时 间 。 计 算 机 流水 线 的 处 理 时 间 也 受 限 于 最 慢 的 处 理 步骤 ， 即 ALU 操作 和 存储 
器 访问 。 同 时 我 们 假设 对 寄存 器 堆 的 写 操作 发 生 在 时 钟 周 期 的 前 半 段 ， 对 寄存 器 堆 的 读 操作 
发 生 在 时 钟 周 期 的 后 半 段 ， 本 章 后 面 将 一 直 遵 循 这 个 假设 口 

所 有 的 流水 级 (pipeline stage) 都 只 花费 一 个 时 钟 周 期 的 时 间 ， 因 此 ， 时 钟 周 期 必须 能 够 
满足 最 慢 操 作 的 执行 需要 。 这 就 像 在 单 周 期 模型 中 虽然 有 些 快 的 指令 的 执行 只 需要 3500ps， 但 
它 必须 选择 在 最 坏 情 况 下 的 800ps 作为 时 钟 周期 一 样 ， 流 水 线 执行 模型 的 时 钟 周 期 也 必须 选择 
最 坏 情况 下 的 200ps 而 不 是 有 些 步 又 可 以 达到 的 100ps。 流 水 线 能 够 将 性 能 提高 4 倍 : 第 一 与 
第 四 条 指令 之 间 的 时 间 差 距 缩短 为 3 x200ps =600ps。 

我 们 可 以 把 上 面 讨 论 的 流水 线 模型 能 够 获得 的 性 能 加 速 比 归纳 成 一 个 公式 。 如 果 流 水 线 各 
阶段 操作 和 平衡， 那么 在 流水 线 机 器 上 的 指令 执行 时 间 为 〈 在 理想 情况 下 ) : 

指令 执行 时 间 ;xs = 指令 执行 时 间 ;xs/ 流水 线 级 数 
” 即 在 理想 情况 且 有 大 量 指令 的 情况 下 ， 流 水 线 所 带 来 的 加 速 比 与 流水 线 的 级 数 近似 相同 。 
例如 一 个 5 级 流水 线 能 获得 的 加 速 比 接近 于 5。 

这 个 公式 说 明 一 个 5 级 流水 线 在 800ps 的 非 流水 线 执行 时 间 的 基础 上 获得 接近 5 倍 的 速度 
提高 ， 即 相当 于 160ps 的 时 钟 周 期 。 然 而 ， 在 例子 中 显示 ， 各 级 间 并 不 是 完全 平衡 的 。 另 外 ， 
流水 线 引 入 了 一 些 开 销 ， 开 销 的 来 源 问题 稍 后 会 更 加 清楚 。 所 以 ， 在 流水 线 机 器 中 每 一 条 指令 
的 执行 时 间 会 超过 这 个 最 小 的 可 能 值 ， 因 此 流水 线 能 够 获得 的 加 速 比 也 就 小 于 流水 线 的 级 数 。 

此 外 ， 即 使 我 们 在 前 面 的 分 析 中 断言 能 将 指令 的 执行 速度 提高 4 倍 ， 但 在 本 例 中 并 没有 反 
映 出 来 ， 它 实际 获得 的 加 速 比 为 2 400ps/1 400ps， 这 是 因为 执行 指令 的 数量 不 够 多 。 如 果 增 加 
执行 指令 的 数目 将 会 发 生 什么 呢 ? 我 们 首先 将 前 面 图 中 的 指令 增加 到 1 000 003 条 ， 也 就 是 说 ， 
在 上 面 的 流水 线 例 子 中 加 入 1 000 000 条 指令 ， 每 一 条 指令 都 将 会 使 整个 的 执行 时 间 增 加 
200ps， 因 此 ， 整 个 的 执行 时 间 就 变 成 1 000 000 x 200ps + 1400ps， 即 200 001 400ps。 在 非 流水 
线 的 例子 中 ， 我 们 也 加 入 1 000 000 条 指令 ， 每 条 指令 的 执行 时 间 是 800ps， 因 此 整个 的 执行 时 
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间 为 1000 000 x800ps +2400ps， 即 800002400ps。 在 这 些 条 件 下 ， 非 流水 线程 序 与 流水 线程 序 
的 实际 执行 时 间 的 比值 就 非常 接近 于 两 者 指令 平均 执行 时 间 的 比值 ， 即 为 
800 002 400ps/200 001 400ps = 800ps/200ps = 4. 00 
流水 线 所 带 来 的 性 能 提高 是 通过 增加 指令 的 吞吐 率 ， 而 不 是 减少 单条 指令 的 执行 时 间 实 现 
的 。 由 于 实际 程序 都 会 执行 成 千 上 万 条 指令 ， 因 此 ， 指 令 的 吞吐 率 是 一 个 很 重要 的 参数 。 


4. 5. 1 面向 流水 线 的 指令 集 设计 


尽管 上 面 的 例子 只 对 流水 线 进行 了 最 简单 的 说 明 ， 我 们 也 能 够 通过 它 讨论 面向 流水 线 执行 
的 MIPS 指令 集 的 设计 。 

第 一 ， 所 有 的 MIPS 指令 的 长 度 都 是 相同 的 。 这 一 限制 简化 了 流水 线 的 第 一 级 取 指 与 第 二 
级 译 码 。 在 诸如 x86 之 类 的 指令 集中 ， 指 令 的 长 度 并 不 相同 ， 从 1 字 节 到 15 字 节 不 等 ， 这 样 
将 会 给 流水 线 的 执行 带 来 更 大 的 挑战 。 最 近 的 x86 体系 结构 实现 实际 上 是 将 x86 指令 转化 成 类 
似 MIPS 指令 的 简单 操作 ， 然 后 再 将 这 些 简单 操作 进行 流水 ， 而 不 是 直接 对 原始 的 x86 指令 流 
水 ! 〈( 见 4.10 节 ) 

第 二 ，MIPS 只 有 很 少 的 几 种 指令 格式 ， 并 且 每 一 条 指令 中 的 源 寄 存 器 字段 位 置 都 是 相同 
的 。 这 种 对 称 性 意味 着 流水 线 的 第 二 级 在 确定 取 指 类 型 的 同时 就 能 够 开始 读 寄 存 器 堆 。 如 果 
MIPS 的 指令 格式 是 非 对 称 的 ， 我们 就 需要 将 第 二 级 一 分 为 二 ， 从 而 使 得 流水 线 的 级 数 变 为 6。 
稍 后 我 们 将 看 到 长 流水 线 的 缺点 。 

第 三 ，MIPS 中 的 存储 器 操作 数 仅 出 现在 存 取 指令 中 。 这 一 限制 意味 着 可 以 利用 执行 级 计 
算 存 储 器 地 址 ， 然 后 可 以 接着 在 下 一 级 访问 存储 器 。 如 果 可 以 直接 操作 内 存 中 的 操作 数 〈 就 像 
在 x86 中 那样 ) ， 那 么 第 三 级 与 第 四 级 将 会 扩展 为 地 址 计算 、 存 储 访问 和 执行 阶段 。 

第 四 ， 如 第 2 章 所 述 ， 所 有 操作 数 必须 在 存储 器 中 对 齐 。 因 此 ， 我 们 不 需要 担心 一 个 数据 
传输 指令 需要 访问 两 次 存储 器 的 情况 ， 所 请 求 的 数据 可 以 在 一 级 流水 线 内 在 处 理 器 与 存储 器 之 
间 完 成 传输 。 


4.5.2 流水 线 冒险 


流水 线 有 这 样 一 种 情况 ， 在 下 一 个 时 钟 周期 中 下 一 条 指令 不 能 执行 。 这 种 情况 称 为 冒险 
(hazard) 。 我 们 将 介绍 三 种 流水 线 冒 险 。 
1. 结构 冒险 


第 一 种 冒险 叫 作 结构 冒险 ( structural hazard ) 。 即 硬件 不 支持 多 条 指令 在 同一 时 钟 周期 执 
行 。 在 洗衣 店 的 例子 中 ， 如 果 用 洗衣 烘 干 一 体 机 代替 独立 的 洗衣 机 与 烘 干 机 ， 或 者 如 果 你 的 室 
友 正 在 做 其 他 的 事情 而 不 能 帮助 你 将 衣服 收拾 好 ， 都 会 发 生 结 构 冒 险 。 如 果 发 生 上 述 情况 ,， 那 
我 们 精心 构筑 起 来 的 流水 线 就 会 受到 破坏 。 


”结构 冒险 : 因 缺 乏 硬 件 支持 而 导致 指令 不 能 在 预定 的 时 钟 周期 内 执行 的 情况 。 


正如 我 们 在 上 面 所 说 的 那样 ，MIPS 的 指令 集 是 为 流水 线 设计 的 。 因 此 ， 它 就 使 得 设计 者 
在 设计 流水 线 时 能 够 非常 容易 地 避免 结构 冒险 。 假 设 图 4-27 的 流水 线 结构 只 有 一 个 存储 器 而 
不 是 两 个 存储 器 ， 那 么 如 果 有 第 四 条 指令 的 话 ， 第 一 条 指令 在 访问 存储 器 的 同时 第 四 条 指令 将 
会 在 同一 存储 器 中 预 取 指令 ， 流 水 线 就 会 发 生 结构 冒险 。 
2. 数据 冒险 
数据 冒险 (data hazard) 发 生 在 由 于 一 条 指令 必须 等 待 另 一 条 指令 的 完成 而 造成 流水 线 暂 
停 的 情况 下 。 假 设 你 在 折 芭 衣服 时 发 现 有 一 只 短 袜 找 不 到 与 之 配对 的 男 一 只 。 你 可 能 做 的 是 下 
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楼 到 你 的 房间 ， 在 衣 橱 中 找 ， 看 是 否 能 找到 另 一 只 。 很 明显 ， 当 你 在 找 的 时 候 ， 已 经 烘 干 且 正 
需要 折合 的 衣服 以 及 已 经 洗 完 且 正 需要 烘 干 的 衣服 不 得 不 搁置 一 边 。 


二 数据 冒险 : 也 称 为 流水 线 数据 冒险 ( pipeline data hazard)， 即 因 无 法 提供 指令 执行 所 需 数 
据 而 导致 指令 不 能 在 预定 的 时 钟 周期 内 执行 的 情况 。 


在 计算 机 流水 线 中 ,数据 冒险 是 由 于 一 条 指令 依赖 于 更 早 的 一 条 还 在 流水 线 中 的 指令 造成 
的 (这 是 一 种 在 洗衣 店 例子 中 不 存在 的 情况 )。 例 如 ,假设 有 一 条 加 法 指令 ， 它 之 后 紧 跟着 一 
条 减法 指令 ， 而 减法 指令 要 使 用 加 法 指令 的 和 ( $s0 ) : 


add $s0, $t0O, $t1 
sub $t2, $s0, $t3 


在 不 做 任何 干涉 的 情况 下 ， 这 一 数据 冒险 会 严重 地 阻碍 流水 线 。 加 法 指令 直到 第 五 步 才能 
写 回 它 的 结果 ， 这 就 意味 着 在 流水 线 中 浪费 了 三 个 时 钟 周期 。 

虽然 可 以 试图 通过 编译 器 来 避免 这 种 数据 冒险 的 发 生 ， 但 实际 上 这 种 努力 很 难 令 人 满意 。 
因为 这 种 冒险 的 发 生 过 于 频繁 而 且 导 致 的 延迟 太 长 ， 因 此 不 可 能 指望 编译 器 把 我 们 从 这 种 困境 
当中 解脱 出 去 。 

一 种 最 基本 的 解决 方法 是 基于 以 下 发 现 : 在 解决 数据 冒险 问题 之 前 不 需要 等 待 指令 的 执行 
结束 。 对 于 上 述 的 代码 序列 ， 一旦 ALU 生成 了 加 法 运算 的 结果 ， 就 可 以 将 它 用 作 减 法 运算 的 
一 个 输入 项 。 从 内 部 资源 中 直接 提前 得 到 缺少 的 运算 项 的 过 程 称 为 前 推 (forwarding) 或 者 旁 
路 (bypassing) 。 


2 前 推 : 也 称 为 旁 路 。 一 种 解决 数据 冒险 的 方法 ， 具 体 做 法 是 从 内 部 寄存 器 而 非 程序 员 可 见 
的 寄存 器 或 存储 器 中 提前 取出 数据 。 


轩 ! 例题 * 两 条 指令 间 的 旁 路 
对 于 上 述 的 两 条 指令 ,说 明 如 何 使 用 旁 路 将 流水 线 各 级 连接 起 来 。 图 4-28 描述 了 流水 线 
的 五 级 。 与 图 4-25 中 的 洗衣 店 流水 线 类 似 ， 每 条 指令 的 数据 通路 排 成 一 行 。 


200 400 600 1 000 
时 间 一 这 


800 
00 _ 
汪 机 
add $s0, $t0, Stl ID 一 闪 WB 


图 4-28 ”指令 流水 线 的 图 形 表示 ， 其 与 图 4-25 中 的 洗衣 店 流水 线 类 似 。 本 图 以 及 本 章 均 使 用 图 形 符号 来 
代表 流水 线 各 级 使 用 的 物理 资源 。 这 些 符号 在 五 级 流水 线 中 所 代表 的 意义 分 别 是 : IF 表示 取 指 
阶段 ， 其 外 方 框 表示 指令 的 存储 器 ; ID 表示 指令 的 译 码 或 寄存 器 堆 的 读 取 阶 段 ， 外 边 的 虚线 方 
框 表示 要 读 取 的 寄存 器 堆 ; EX 表示 指令 的 执行 阶段 ， 外 边 的 图 符 表示 ALU; MEM 表示 存储 器 
访问 阶段 ， 包 围 它 的 方 框 代 表 数 据 存储 器 ; WB 表示 写 回 阶段 ， 包 围 它 的 虚线 方 框 代 表 被 写 回 
的 寄存 器 堆 。 阴 影 表 示 该 资源 被 指令 所 使 用 。 因 为 add 指令 在 这 一 步 并 不 读 取 数 据 存储 器 ， 所 
以 MEM 没有 阴影 。 寄 存 器 堆 或 存储 器 右 半 边 的 阴影 表示 它们 在 此 步骤 中 被 读 取 ， 左 半边 的 阴影 
表示 它们 在 此 步骤 中 被 写 信 。 因 此 ， 由 于 第 二 步 需 要 读 取 寄存 器 堆 ，ID 的 右 半 边 有 阴影 ， 而 由 
于 第 五 步 中 需要 写 人 寄存 器 堆 ，WB 的 左 半边 有 阴影 


四 答案 


图 4-29 表示 了 把 add 指令 执行 后 的 $s0 中 的 值 作为 sub 指令 执行 的 输入 的 旁 路 连接 。 口 


在 图 4-29 中 ， 只 有 当 目 标 步 又 在 时 间 上 晚 于 源 步 又 时 旁 路 的 路 径 才 有 效 。 例 如 ， 从 前 一 条 指令 
存储 器 访问 的 输出 至 下 一 条 指令 执行 的 输入 就 不 能 实现 旁 路 ， 因 为 那样 的 话 将 意味 着 时 间 的 倒流 。 

旁 路 可 以 工作 得 很 好 ， 其 具体 内 容 将 在 4.7 节 详 细 介绍 。 然 而 它 并 不 能 够 避免 所 有 流水 线 
阻塞 的 发 生 。 例 如 ， 假 设 第 一 条 指令 不 是 add 而 是 装载 $s0 寄存 器 的 内 容 ， 正 如 图 4-29 所 描 
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述 的 那样 ， 由 于 数据 间 的 依赖 ， 所 需要 的 数据 只 有 在 前 一 条 指令 流水 线 的 第 四 级 完成 之 后 才能 
生效 ， 这 对 于 sub 指令 的 第 三 级 输入 来 说 就 太 迟 了 。 因 此 ， 如 图 4-30 所 示 ， 即 使 采用 了 旁 路 
机 制 ， 在 遇 到 取 数 -使 用 型 数据 冒险 (load-use data hazard) 时 ， 流 水 线 不 得 不 阻塞 一 个 步骤 。 
图 中 显示 了 一 个 重要 的 流水 线 概念 ， 正 式 的 叫 法 是 流水 线 阻 塞 (pipeline stal) ， 但 是 它 经 常 被 昵 
称 为 气泡 (bubble) 。 我 们 经 常会 在 流水 线 中 看 到 阻塞 的 发 生 。4. 7 节 将 给 出 处 理 这 种 复杂 情况 的 
方法 ， 即 采用 硬件 上 检测 阻塞 和 软件 上 重新 安排 代码 顺序 等 方法 来 避免 装载 - 使 用 型 数据 冒险 。 


全” 取 数 -使 用 型 数据 冒险 : 一 类 特殊 的 数据 冒险 ， 指 当 装 载 指令 要 取 的 数 还 没 取 回来 时 其 他 





间 令 就 需要 使 用 的 情况 。 
史 ”流水 线 阻塞 : 也 称 为 气泡 。 为 了 解决 冒险 而 实施 的 一 种 阻塞 。 
程序 执行 顺序 200 400 600 800 1000 
( 按 指 令 序 ) 


add $s0, $t0, $tl MEM ! 


六 -加 -区 


sub $t2, $s0, $t3 








图 4-29 旁 路 的 图 形 表示 。 图 中 的 连接 表示 从 aad 指令 的 EX 操作 输出 到 sub 指令 的 EX 操 


作 输 入 的 旁 路 路 径 ， 从 而 蔡 换 掉 在 sub 的 第 二 步 从 寄存 器 $s0 读 取 的 值 


程序 执行 顺序 时 间 200 400 600 800 1 000 1 200 l 400 > 


( 按 指令 序 ) 
lw $s0, 20($t1) 





Y 
图 4-30 


sub $ 12, $s0, $t3 











-六 MEMH | WB : 


当 一 条 R 型 指令 之 后 紧 跟 着 一 条 需要 使 用 其 结果 的 装载 指令 时 ， 即 使 使 用 了 旁 路 机 制 ， 仍 然 会 
产生 一 次 阻塞 。 如 果 不 进行 一 次 阻塞 ， 从 存储 器 访问 的 输出 到 执行 级 的 输入 之 间 的 路 径 在 时 间 
上 将 是 倒 着 的 ， 这 显然 是 不 可 能 的 。 事 实 上 ， 这 仅 是 一 个 示意 图 ， 因 为 直到 减法 指令 取 指 和 译 
码 之 后 ， 我 们 才 知 道 是 否 需 要 阻塞 。4. 7 节 详 细 介 绍 了 这 种 冒险 情况 


图 例题 * 重新 安排 代码 以 避免 流水 线 阻塞 


考虑 下 面 这 段 C 代码 : 

a=b+i e; 

= 让 

下 面 是 这 段 C 代码 对 应 的 MIPS 指令 ,假设 所 有 的 变量 都 在 存储 器 中 ， 且 以 $t0 为 基 址 进 
行 寻 址 : 

1w $t ,Ot0) 

1w $t2, 4($t0) 

add $83， 中 tl $2 

SW $t3, 12($t0) 

1w $t4, 8($t0) 

add $t5， 小 s 直 诸 44 


SW 


$t5, 16($t0) 


试 找 出 上 述 代 码 段 中 存在 的 冒险 并 试 着 重新 安排 指令 顺序 以 避免 流水 线 阻塞 。 








四) 答案 

两 条 ada 指令 都 存在 冒险 ， 因 为 它们 都 依赖 于 上 一 条 lw 指令 。 注 意 ， 通 过 旁 路 可 以 消除 
一 些 潜 在 的 冒险 ,包括 第 一 条 aaa 指令 对 第 一 条 lw 指令 的 依赖 和 sw 指令 导致 的 冒险 。 而 将 
第 3 条 lw 指令 上 移 到 第 3 条 指令 的 位 置 则 可 以 进一步 消除 所 有 冒险 : 

lw  $tl, 0($t0) 

lw S$t2, 4($t0) 

1w $t4, 8($t0) 

add $t3, $tl1,$t2 

sw  $t3, 12($t0) 

add S$t5, $tl1,$t4 

sw  $t5, 16($t0) 


在 一 个 具有 劳 路 功能 的 流水 线 处 理 嚣 中， 执行 这 个 重 排序 后 的 指令 序列 要 比 上 面 那个 指令 


序列 快 2 个 时 钟 周期 。 O 〇 
在 前 面 介 绍 了 设计 适应 ee 由 旁 路 可 以 得 到 设计 
MIPS 体系 结构 指令 集 的 另 一 个 原则 。 即 每 条 MIPS 指令 最 多 只 结果 并 且 在 流水 线 的 最 后 


ee 


四， 精 解 “前 推 ” 这 个 名 称 来 源 于 将 结果 从 前 面 的 指令 直接 发 送 到 后 面 的 指令 的 思想 。“ 旁 
路” 这个 名 次 来 源 于 外 得 春 医 维 中 的 纤 果 直 接 传递 到 需要 的 单元 中 。 


3. 控制 冒险 
第 三 种 冒险 叫 作 控制 冒险 ( control hazard) 。 这 种 冒险 会 在 下 面 的 情况 下 出 现 : 决策 依赖 
于 一 条 指令 的 结果 ， 而 其 他 指令 正在 执行 中 。 


2 控制 冒险 : 也 称 为 分 支 冒 险 (branch hazard)。 因 为 取 到 的 指令 并 不 是 所 需要 的 (或 者 说 
旨 令 地 址 的 变化 并 不 是 流水 线 所 预期 的 ) 而 导致 指令 不 能 在 预定 的 时 钟 周期 内 执行 。 


假设 洗衣 店 的 店员 们 接 到 了 一 个 令 人 高 兴 的 任务 : 为 一 个 足球 队 清 洗 队 服 。 由 于 衣服 非常 
” 脏 ， 我 们 需要 确定 清洗 剂 的 用 量 以 及 设置 水 温 以 保证 能 够 将 衣服 清洗 干净 ,但 同时 要 保证 清洗 
剂 的 用 量 不 能 过 大 ， 以 避免 过 度 磨 损 衣物 。 在 洗衣 店 流水 线 中 ， 店 员 只 有 等 到 第 二 步 烘 干 衣服 
以 后 才能 确定 是 否 需要 改变 设置 。 在 这 种 情况 下 应 该 怎么 办 呢 ? 

有 两 种 办 法 可 以 解决 洗衣 店 的 控制 冒险 ， 同 样 的 方法 也 可 以 应 用 到 计算 机 中 。 

阻塞 (stal) : 在 第 一 批 衣服 被 烘 干 之 前 按 串 行 的 方式 操作 ， 并 且 重 复 这 一 过 程 直到 找到 
正确 的 洗衣 设置 为 止 。 

这 种 保守 的 方法 当然 可 以 保证 正常 工作 ， 但 它 的 速度 比较 慢 。 

计算 机 中 的 决策 就 是 分 支 指令 。 注 意 ， 在 取 分 支 指令 之 后 ， 紧 跟着 就 会 取 下 一 条 指令 。 但 
是 流水 线 并 不 知道 下 一 条 真正 要 执行 的 指令 在 哪里 ， 因 为 它 才 刚刚 从 指令 存储 器 中 把 分 支 指令 
给 取出 来 ! 跟 洗 衣 店 的 例子 一 样 ， 一 种 可 能 的 解决 方法 是 取 分 支 指令 后 立即 阻塞 流水 线 ， 直 到 
流水 线 确定 分 支 指令 的 结果 并 知道 下 一 条 真正 要 执行 的 指令 在 哪 为 止 。 

假设 可 以 加 入 足够 多 的 硬件 使 得 在 流水 线 的 第 二 级 能 测试 寄存 器 、 计 算 分 支 地 址 并 更 新 
PC (详情 见 4. 8 节 ) 。 通 过 使 用 这 些 额 外 的 硬件 ， 包 含 条 件 分 支 的 流水 线 执行 情况 如 图 4-31 所 
示 。 如 果 分 支 指令 的 判定 条 件 失败 ， 即 分 支 不 执行 ， 则 要 执行 1w 指令 ， 它 在 启动 之 前 被 阻塞 
一 个 200ps 的 额外 时 钟 周期 。 


邯 ] 例题 . 阻塞 对 分 支 性 能 的 影响 
评价 分 支 阻塞 对 单位 指令 时 钟 周期 数 〈CPI) 的 影响 。 假 设 其 他 所 有 指令 的 CPI 都 为 1。 
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区 | 答案 

第 3 章 的 图 3-27 说 明 在 SPECint2006 中 ， 分 支 指令 约 占 执行 指令 的 17% 。 由 于 其 他 指令 的 
CPI 都 为 1， 而 分 支 指令 阻塞 要 多 一 个 时 钟 周期 ， 因 此 平均 CPI 为 1. 17。 与 理想 的 情况 相 比 ， 
现在 的 速度 下 降 了 1. 17 信 。 0 


图 4-31 


时 间 
程序 执行 顺序 
( 按 指令 序 ) 


add $4, $5, $6 





beq $1, $2,40 


所 气泡 

or $7, $8, $9 二 而 豆 呵 
在 每 一 个 条 件 分 支 上 阻塞 是 避免 流水 线 控制 冒险 的 一 种 解决 方法 。 这 个 例子 假设 分 支 发 生 ， 并 
且 分 支 目 标 地 址 处 是 一 条 OR 指令 。 分 支 指令 之 后 会 插入 一 个 周期 的 流水 线 阻 塞 ， 或 者 叫 气 
泡 。 事实 上 ， 产生 阻塞 的 过 程 有 些 复杂 ， 我 们 会 在 4.8 节 说 明 这 一 点 。 这 种 方法 对 性 能 的 影响 
与 插入 一 个 气泡 是 一 样 的 





如 果 不 能 在 第 二 级 解决 分 支 问题 (这 种 情况 在 较 长 的 流水 线 中 经 常 发 生 ) ， 那 么 分 支 结 构 
上 的 阻塞 将 导致 更 大 的 速度 下 降 。 对 很 多 计算 机 来 说 ， 这 种 阻塞 的 方法 代价 太 大 ， 因 此 也 就 产 
生 了 另外 一 种 消除 控制 冒险 的 方法 (该 方法 使 用 第 1 章 中 提 到 的 伟大 思想 来 应 对 控制 冒险 ) : 

预测 (predict) : 如 果 你 有 自信 正确 地 设置 洗衣 设备 来 洗涤 那些 队 服 (可 以 预测 它 的 正确 
工作 条 件 ) ， 那 么 就 可 以 在 第 一 批 衣服 烘 干 的 同时 清洗 第 二 批 衣服 。 

这 种 做 法 在 预测 正确 的 时 候 不 会 降低 流水 线 的 速度 ,但 是 一 旦 预测 错误 ， 就 不 得 不 将 已 经 
洗 过 的 队 服 重新 洗 一 遍 。 

计算 机 的 确 是 采用 预测 的 方法 来 处 理 分 支 的 。 一 种 简单 的 预测 方法 就 是 总 预测 分 支 未 发 
生 。 当 预测 正确 (分 支 未 发 生 ) 的 时 候 ,， 流水 线 会 全 速 地 执行 。 只 有 当 分 支 发 生 时 流水 线 才 
会 阻塞 。 图 4-32 给 出 了 这 样 一 个 例子 。 


图 4-32 


200 400 600 800 1 000 1 200 1 400 
程序 执行 顺序 时 间 
( 按 指令 序 ) 
add $4, $5, $6 
beq $1, $2, 40 


lw $3, 300($0) 





200 400 600 800 1 000 1 200 1 400 
时 间 


程序 执行 顺序 
( 按 指令 序 ) 


读 寄 | ALU | 数据 访问 | 写 寄 

as 

读 寄 | ALU 写 寄 

ss CE 

2 运算 ”| 〈 访 存 ) | 存 器 
| ,i 


4 ,i 


人 “ 
pa a 


显示 的 是 分 支 发 生 了 的 流水 线 。 正 如 我 们 在 图 4-31 中 提 到 的 那样 ， 这 种 插入 气泡 的 方式 是 一 种 简化 
的 表示 方法 ， 至 少 对 紧 跟 分 支 指令 的 下 一 个 时 钟 周期 而 言 是 这 样 。4. 8 节 将 给 出 其 中 的 细节 











一 种 更 加 成 熟 的 分 支 预测 (branch prediction) 方法 是 预测 一 些 分 支 发 生 而 预测 男 一 些 分 支 
不 发 生 。 如 在 上 面 洗衣 店 的 例子 中 ， et a 个 洗衣 设备 设置 ， 而 白天 或 
客场 比赛 的 队 服 则 使 用 另 一 个 设置 。 在 计算 机 程序 中 ， 循 环 体 底部 的 分 支 总 是 会 跳 回 到 循环 体 
的 顶部 。 在 此 种 情况 下 ， 由 于 分 支 总 是 发 生 并 且 向 前 跳 转 ， 因 此 我 们 可 以 预测 分 支 会 跳 转 到 前 
面 的 某 一 地 址 处 。 


他 分 支 预测 : 一 种 解决 分 支 冒 险 的 方法 。 它 预测 分 支 结果 并 立即 沿 预测 方向 执行 ， 而 不 是 等 
真正 的 分 支 结果 确定 后 才 开 始 执行 。 


这 种 分 支 预测 的 方法 依赖 于 始终 不 变 的 行为 ， 它 没有 考虑 特定 分 支 指令 的 特点 。 动 态 硬件 

预测 器 与 这 种 方法 截然 不 同 ， 它 的 预测 取决 于 每 一 条 分 支 的 行为 ， 并 且 在 整个 程序 生命 期 内 可 
能 改变 分 支 的 预测 结果 。 用 洗衣 店 的 例子 来 说 ， 使 用 动态 预测 方法 ， 店 员 将 会 观察 衣服 脏 的 程 
度 并 预测 一 个 洗衣 设备 的 设置 ， 然 后 在 本 次 预测 成 功 的 基础 上 调整 下 一 次 的 预测 行为 。 

计算 机 中 动态 预测 方法 的 一 种 比较 普遍 的 实现 方式 是 保存 每 次 分 支 的 历史 记录 ， 然 后 利用 
这 个 历史 记录 来 预测 。 稍 后 我 们 将 看 到 ， 历 史记 录 的 数量 和 类 型 足够 多 时 ， 这 种 动态 分 支 预测 
的 方式 能 够 达到 90% 的 正确 率 ( 见 4.8 节 )。 当 预测 错误 时 ,流水线 控制 必须 确保 被 错误 预测 
的 分 支 后 面 的 指令 执行 不 会 生效 ， 并 且 必 须 在 正确 的 分 支 地 址 处 重新 开始 启动 流水 线 。 在 洗衣 
店 的 例子 中 ， 我 们 必须 停止 接受 新 的 任务 ， 从 而 可 以 重新 执行 错误 预测 的 任务 。 

如 同 其 他 解决 控制 冒险 的 方法 一 样 ， 较 长 的 流水 线 会 恶化 预测 的 性 能 ， 并 会 提高 错误 预测 
的 代价 。 控制 冒险 的 解决 办 法 在 4. 8 节 中 将 有 更 加 详细 的 描述 。 


加 精 解 还 有 一 种 解决 控制 冒险 的 方法 ， 即 延迟 决定 ( delayed decision) 。 与 洗衣 店 的 例子 
类 比 ， 每 当 要 决定 如 何 洗 衣服 时 ， 就 将 一 批 非 足球 队 的 衣服 放 进 洗衣 机 里 ， 同 时 等 待 足球 
队 的 制服 被 烘 干 。 只 要 有 足够 多 不 需要 决策 的 脏 衣服 ， 这 种 方法 就 很 有 效 。 

在 计算 机 中 这 种 方法 被 称 为 延迟 分 支 (delayed branch) ， 在 MIPS 体系 结构 中 也 得 到 
了 实际 应 用 。 延 迟 分 支 顺 序 执行 下 一 条 指令 ， 在 一 条 指令 延迟 之 后 再 开始 执行 分 支 。 由 于 
编译 器 会 自动 排列 指令 ， 使 得 分 支 的 行为 达到 程序 员 的 要 求 ， 因 此 这 个 过 程 对 MIPS 的 汇 
编程 序 员 是 透明 的 。MIPS 编译 器 会 在 延迟 分 支 指令 的 后 面 紧 跟着 放 一 条 不 受 该 分 支 影响 
的 指令 。 发 生 了 的 分 支 会 改变 这 条 安全 指令 之 后 的 指令 地 址 。 在 我 们 的 例子 中 ， 图 4-31 
中 分 支 前 的 add 指令 不 影响 分 支 ， 所 以 可 以 把 它 移 到 分 支 之 后 以 完全 隐藏 分 支 延 迟 。 因 
为 只 有 当 分 支 延 迟 较 短 时 ， 延 迟 分 支 才 有 效 ， 所 以 没有 处 理 器 使 用 超过 一 个 时 钟 周期 的 和 
退 分 支 。 对 更 长 的 分 支 延 迟 ， 一 般 都 使 用 硬件 分 支 预测 器 。 


4. 5. 3 ”对 流水 线 概述 的 小 结 


流水 线 是 一 种 在 顺序 指令 流 中 利用 指令 间 并 行 性 的 技术 。 与 多 处 理 器 编程 相 比 ， 其 优势 在 
于 它 对 程序 员 是 不 可 见 的 。 

在 以 下 几 节 中 ,我 们 首先 使 用 4. 4 节 单 周期 实现 方式 的 MIPS 指令 子 集 及 其 简化 的 流水 线 
方式 介绍 关于 流水 线 的 一 些 基本 概念 ， 然 后 讨论 引入 流水 线 所 带 来 的 一 些 问题 以 及 流水 线 在 一 
些 典 型 情况 下 所 能 获得 的 性 能 提升 。 

如 果 想 了 解 更 多 软件 和 流水 线 对 性 能 的 意义 ， 并 且 你 已 经 具有 足够 的 背景 知识 ， 可 以 直接 
跳 到 4. 10 节 。4. 10 节 介 绍 了 一 些 高 级 流水 线 概念 ,如 超标 量 、 动 态 调度 等 。4. 11 节 介 绍 了 一 
些 最 新 的 微 处 理 器 流水 线 。 

反之 ， 如 果 你 想 深 入 了 解 流 水 线 的 实现 方式 和 如 何 处 理 冒 险 现象 ， 可 以 接着 阅读 后 面 的 几 
节 。4. 6 节 介 绍 了 一 个 流水 线 的 数据 通路 和 基本 控制 设计 。 在 4.6 节 的 基础 上 ， 你 可 以 在 4.7 
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节 中 学 习 旁 路 和 阻塞 的 实现 。 紧 接着 4. 8 节 介绍 了 处 理 分 支 冒 险 的 方法 。 而 4.9 节 则 介绍 了 异 
常 是 如 何 处 理 的 。 


印 | 小 测验 
对 下 面 每 个 指令 序列 ， 说 明 哪 个 必须 阻塞 ， 哪 个 只 使 用 旁 路 就 可 以 避免 阻塞 ， 而 哪个 既 不 
需要 阻塞 也 不 需要 旁 路 就 可 以 执行 。 


addi $t1,，$t0 ,并 1 
add $tl, $t0, $tO addi $t2,$t0 ,#2 
addi $t2,$t0,#5 addi $t3,$t0 ,#2 
addi $t4,$t1,#5 addi $t3,$t0,#4 
addi $t5,$t0,#5 





lw $t0,0 ( $t0) 
add $t1, $t0,$tO 





图 理解 程序 性 能 “除了 存储 系统 以 外 ， 流 水 线 的 有 效 运作 是 决定 处 理 器 CPI 乃至 其 性 能 最 重 
要 的 因素 。 正 如 我 们 将 在 4. 10 节 看 到 的 那样 ， 理 解 现代 多 发 射流 水 线 处 理 器 的 性 能 是 一 
项 复杂 的 任务 ， 相 对 简单 流水 线 处 理 器 而 言 需要 理解 更 多 的 问题 。 不 管 怎 样 ， 结 构 冒 险 、 
数据 冒险 和 控制 冒险 在 简单 流水 线 处 理 器 和 更 复杂 的 流水 线 处 理 器 中 都 是 非常 重要 的 。 

对 现代 流水 线 而 言 ， 结 构 置 险 经 常 出 现在 浮 点 单元 附近 ， 浮 点 单元 是 一 个 几乎 不 可 能 
完全 流水 的 地 方 。 与 之 相 比 ， 控 制 冒 险 一 般 出 现在 整数 程序 中 ， 因 为 其 中 分 支出 现 的 概率 
更 高 ， 也 更 难 预 测 。 数 据 冒 险 在 整数 和 浮 点 程序 中 都 可 能 成 为 性 能 瓶颈 。 一 般 来 说 ， 浮 点 
程序 中 的 数据 冒险 更 容易 处 理 ， 因 为 低 的 分 支出 现 频率 和 规则 的 存储 器 存 取 使 得 编译 器 有 
更 大 的 空间 调度 指令 以 避免 冒险 。 与 之 相 比 ， 在 整数 程序 中 涉及 大 量 的 指针 ， 存 储 器 的 存 
取 更 不 规则 ， 做 这 样 的 优化 就 要 困难 一 些 。 正 如 我 们 将 在 4.10 节 看 到 的 那样 ， 有 很 多 纺 
译 器 和 基于 硬件 的 技术 通过 调度 来 减少 数据 间 的 依赖 。 


团 | 重点 流水 线 增加 了 同时 执行 的 指令 数目 以 及 指令 开始 和 结束 的 速率 。 流 水 线 并 不 能 够 减 
少 单一 指令 的 执行 时 间 ， 也 称 为 延迟 (latency)。 例 如 ， 一 个 五 级 流水 线 仍然 需要 5 个 时 
钟 周 期 来 完成 一 条 指令 。 用 第 1 章 的 术语 来 描述 就 是 流水 线 提高 了 指令 的 吞吐 率 而 不 是 减 
少 了 单条 指令 的 执行 时 间或 延迟 。 


”延迟 ; 流水 线 的 级 数 或 者 顺序 执行 过 程 中 两 条 指令 间 的 级 数 。 


对 流水 线 的 设计 者 来 说 ， 指 令 集 既 可 能 将 事物 简单 化 ， 也 可 能 将 事物 复杂 化 。 流水 线 设 计 
者 必须 解决 结构 冒险 、 控 制 冒险 和 数据 冒险 。 而 分 支 预测 、 旁 路 和 阻塞 机 制 能 够 在 保证 得 到 正 
确 结果 的 前 提 下 提高 计算 机 的 性 能 。 


4.6 流水 线 数据 通路 及 其 控制 
看 起 来 东西 很 多 ， 其 实 不 然 。 





Tallulah Bankhead, remark, to Alxmnder Woolleott, 1922 
图 4-33 是 摘自 4.4 节 的 一 个 单 时 钟 周 期 的 数据 通路 。 将 指令 划分 为 5 个 阶段 意味 着 一 个 流 


水 线 采 用 5 级 ， 也 就 意味 着 在 任何 一 个 单 时 钟 周期 内 ， 最 多 会 执行 5 条 指令 。 因 此 必须 把 数据 
通路 分 为 5 个 部 分 ， 每 一 部 分 用 与 之 对 应 的 指令 执行 阶段 来 命名 。 


处 理 器 793 








WB: 写 回 


正 : 取 指令 


ID: 指令 译 码 / 读 寄 存 器 堆 | ”EX: 执行 /地 址 计算 

















图 4-33 4.4 节 中 的 单 时 钟 周期 数据 通路 (与 图 4-17 类 似 ) 。 图 中 自 左 至 右 把 指令 的 每 一 步 映射 到 数据 
通路 中 。PC 更 新 与 写 回 过 程 是 唯一 的 例外 〈 图 中 用 灰色 线 表示 ) ， 其 发 送 ALU 结果 或 存储 器 数 
据 到 左边 的 寄存 器 堆 中 。( 我 们 通常 使 用 灰色 线 表示 控制 ， 但 在 这 里 表示 数据 线 。) 


1) IF: 取 指 令 。 

2) ID: 指令 译 码 ， 读 寄存 器 堆 。 

3) EX: 执行 或 计算 地 址 。 

4) MEM: 数据 存储 器 访问 。 

5) WB: 写 回 。 

图 4-33 的 5 个 部 分 大 致 与 数据 通路 相符 : 指令 与 数据 随 着 执行 过 程 从 左 到 右 依次 通过 五 
级 流水 线 。 正 如 洗衣 店 的 例子 一 样 ， 衣 服 沿 着 一 条 工作 线 依次 完成 清洗 、 烘 干 和 整理 ， 而 不 会 
反 向 移动 。 

然而 ， 在 从 左 到 右 的 指令 流 中 有 两 个 例外 : 

。 写 回 阶段 ， 它 把 结果 写 回 数据 通路 中 间 的 寄存 器 堆 中 。 

。 选择 PC 的 下 一 个 值 时 ， 需 在 自 增 的 PC 和 MEM 级 的 分 支 地 址 间 进 行 选 择 。 

这 两 个 从 右 向 左 的 数据 流 不 会 影响 当前 指令 ; 只 有 当前 指令 以 后 的 指令 才 会 受到 这 种 数据 
反 向 活动 的 影响 。 需 要 注意 的 是 ， 第 一 个 例外 会 导致 数据 冒险 ， 而 第 二 个 会 导致 控制 冒险 。 

一 种 表示 流水 线 数据 通路 的 方法 是 假定 每 一 条 指令 都 有 它 独立 的 数据 通路 ， 然 后 把 这 些 数 
据 通 路 放 在 同一 时 间 轴 上 表示 出 它们 之 间 的 关系 。 图 4-34 在 同一 时 间 轴 上 表示 了 图 4-27 中 指 
令 执行 过 程 中 各 自 的 数据 通路 (我 们 仍然 使 用 图 4-33 中 的 格式 来 表示 图 4-34 中 的 关系 ) 。 

从 表面 来 看 ， 图 4-34 中 的 三 条 指令 似乎 需要 三 条 数据 通路 。 事 实 上， 通过 增加 保存 中 间 
ee 

例如 ， 如 图 4-34 所 示 ， 指 令 存 储 器 只 在 每 条 指令 的 5 个 步骤 中 的 一 步 中 用 到 ， 因 此 我 们 
允许 它 在 其 他 4 步 中 被 其 他 的 指令 共享 。 hs， 全 从 指令 存储 器 中 读 
出 的 数据 必须 保存 在 寄存 器 中 。 将 同样 的 方法 应 用 到 每 个 流水 线 级 中 ， 我 们 需要 在 图 4-33 中 
各 级 间 有 分 割 线 的 地 方 都 加 入 寄存 器 。 再 回 到 洗衣 店 的 例子 中 ， 这 里 可 以 用 篮子 在 两 个 步骤 间 
存放 下 一 步 的 衣服 。 

图 4-35 描述 了 流水 线 的 数据 通路 ， 其 中 流水 线 寄存 器 用 灰色 表示 。 在 每 个 时 钟 周 期 中 所 
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有 指令 都 会 从 一 个 流水 线 寄存 器 传递 到 另 一 个 流水 线 寄存 器 中 。 寄 存 器 以 被 该 寄存 器 分 开 的 两 
个 阶段 来 命名 ,如 正和 ID 之 间 的 流水 线 寄 存 器 叫 作 IF/ID。 


图 4-34 





时 间 《以 时 钟 周期 计 ) 
程序 执行 顺序 CC1 | CC2 GE3 ! CC4 i CC5 | CC6 | ce7 
( 按 指令 序 ) | | | | | 1 
1 一 1 1 一 1 1 
| 
lw $1, 100 ($0) [mrs | |pM| Regl |! | 
| wz 1 1 a 1 1 
| | | LW 1 | 
1 1 1 1 1 1 
1 让 1 1 1 -| 1 
lw $2, 200 ($0) | [3 Reg| | » 加 | Regl |! 
> I | | | 1 
| [i | | C= = 六 
| | | | | | 
| | wa | | | 
lw $3, 300 ($0) | | 1 do 一 1 | DM| Regl 
1! 1 1 
1 1 | 


按 图 4-33 中 的 单 时 钟 周期 数据 通路 执行 的 指令 (假定 以 流水 线 方式 执行 ) 。 与 图 4-28 到 图 4-30 
类 似 ， 本 图 假设 每 一 条 指令 有 它 独立 的 数据 通路 ， 并 根据 使 用 情况 将 相应 的 部 分 涂 上 阴影 。 与 
这 些 图 不 同 的 是 ， 流 水 线 的 每 一 级 都 用 该 级 使 用 的 物理 资源 标示 ， 分 别 对 应 图 4-33 中 数据 通路 
的 相应 部 分 。IM 表示 指令 存储 器 与 取 指 令 阶段 的 PC，Reg 表示 指令 译 码 / 寄 存 器 堆 读 取 阶 段 
(ID) 的 寄存 器 堆 和 符号 扩展 单元 ， 等 等 。 为 了 保持 正确 的 时 序 ， 这 种 形式 的 数据 通路 把 寄存 
器 堆 从 逻辑 上 划分 为 两 个 部 分 : 寄存 器 读 取 (外) 阶段 的 寄存 器 读 和 写 回 〈(WB) 阶段 的 寄存 
器 写 。 这 种 复 用 在 图 中 表示 为 : 在 ID 级 当 寄存 器 堆 没 有 被 写 人 时 ， 将 没有 阴影 的 寄存 器 堆 的 
左 半 部 分 用 虚线 表示 ; 而 在 WB 级 ， 当 寄存 器 堆 没有 被 读 取 时 ， 将 没有 阴影 的 右边 部 分 用 虚线 
表示 。 与 以 前 一 样 ， 假 设 在 时 钟 周期 的 前 半 部 分 写 寄存 器 堆 而 在 时 钟 周期 的 后 半 部 分 读 寄存 
器 堆 








图 4-35 





图 4-33 数据 通路 的 流水 线 版 本 。 流 水 线 寄 存 器 ( 以 灰色 标识 ) 将 流水 线 的 各 部 分 分 开 。 例 如 ， 
IF/ID 将 取 指令 和 指令 译 码 阶段 分 开 。 为 了 存储 所 有 穿 过 它 的 数据 〈 用 线条 表示 ) ， 寄 存 器 的 
宽度 必须 足够 大 。 例 如 ， 因 为 F/ID 寄存 器 必须 同时 保存 从 存储 器 中 提取 出 来 的 32 位 指令 及 
32 位 PC 自 增 地 址 ， 所 以 它 的 宽度 必须 是 64 位 。 我 们 将 在 本 章 中 逐渐 增加 寄存 器 宽度 ， 目 前 
另外 三 个 流水 线 寄存 器 的 宽度 分 别 是 128 位 、97 位 和 64 位 


需要 注意 的 是 ， 在 写 回 阶段 的 后 面 没 有 流水 线 寄存 器 。 所 有 指令 都 会 更 新 机 器 中 的 某 些 状 
态 ， 如 寄存 器 堆 、 存 储 器 或 PC 等 ， 因 此 各 个 流水 线 寄存 器 对 于 更 新 后 的 状态 来 说 是 多 余 的 。 
例如 ， 装 载 指令 会 把 它 的 结果 放 入 32 个 寄存 器 中 的 某 一 个 ， 以 后 任何 需要 此 数据 的 指令 只 需 
要 读 取 相 应 的 寄存 器 就 可 以 了 。 

当然 ， 每 条 指令 都 会 更 新 PC， 不 管 是 自 增 还 是 设置 为 分 支 目的 地 址 。PC 可 以 看 成 一 个 流 
水 线 寄存 器 : 给 流水 线 的 下 级 提供 数据 。 不 像 图 4-35 中 那些 灰色 的 流水 线 寄存 器 ，PC 是 可 见 


处 理 器 195 





体系 结构 寄存 器 的 一 部 分 ， 发生 异常 时 必须 保存 它 的 内 容 ， 而 那些 流水 线 寄存 器 的 内 容 可 被 丢 
弃 。 用 洗衣 店 的 例子 来 说 ， 你 可 以 把 PC 看 成 洗涤 步骤 之 前 装 脏 衣服 的 篮子 。 

为 了 描述 流水 线 的 工作 方式 ， 本 章 将 使 用 一 系列 图 片 来 表示 这 些 顺 序 的 操作 。 这 些 内 容 需 
要 一 定时 间 去 理解 ,但 不 要 害怕 ， 这 些 图 片 实际 上 比 它们 看 上 去 要 容易 理解 ， 因 为 可 以 对 比 观 
察 每 一 个 时 钟 周期 内 所 发 生 的 变化 。4.7 节 将 介绍 流水 线 指令 间 发 生 数据 冒险 的 情况 ， 这 里 暂 
时 忽略 。 

4-36 ~ 图 4-38 表示 了 装载 指令 在 通过 流水 线 的 五 级 时 数据 通路 的 活动 部 分 。 先 讨论 装 
载 指 令 是 因为 它 完 全 使 用 了 流水 线 的 五 级 。 正 如 图 4-28 ~ 图 4-30 所 显示 的 那样 ， 当 寄存 器 或 
存储 器 被 读 取 时 ， 图 4-35 中 活动 的 数据 通路 部 件 用 灰色 表示 。 在 图 中 用 阴影 表示 其 右 半 部 分 ; 
而 当 它 们 被 写 人 时 ， 用 阴影 来 表示 其 左 半 部 分 。 














图 4-36 正和 ID: 一 条 指令 在 流水 线 中 的 第 一 、 二 步 。 这 种 灰色 的 表示 方法 与 图 4-28 相同 。 正 如 4.2 
节 中 介绍 的 那样 ， 读 写 寄存 器 并 不 会 发 生 冲 突 ， 因 为 寄存 器 内 容 的 变化 只 在 时 钟 的 边缘 发 生 。 
虽然 lw 指令 只 需要 第 二 级 中 寄存 器 1 的 值 ， 但 由 于 处 理 器 并 不 知道 当前 是 哪 一 条 指令 正在 被 译 
码 ， 因 此 它 把 符号 扩展 后 的 16 位 常量 及 两 个 寄存 器 的 值 都 读 人 ID/EX 流水 线 寄存 器 中 。 我 们 
并 不 一 定 需 要 所 有 这 三 个 操作 数 ， 但 是 保留 全 部 三 个 操作 数 能 简化 控制 
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我 们 把 每 一 幅 图 中 活动 的 流水 线 级 用 指令 的 缩写 lw 和 流水 级 名 称 标 出 。 具 体 情况 如 下 : 

1) 取 指 令 : 图 4-36 的 顶端 表示 指令 使 用 PC 中 的 地 址 从 存储 器 中 读 取 数据 ， 然 后 将 数 
据 放 入 IFZID 流水 线 寄 存 器 中 。PC 地 址 加 4 然后 写 回 PC 以 便 为 下 个 时 钟 周期 做 好 准备 。 增 
加 后 的 地 址 同时 也 存 入 了 IF/ID 流水 线 寄存 器 中 以 备 后 面 的 指令 使 用 〈 如 bea) 。 计 算 机 并 
不 知道 所 取 指 令 的 类 型 ， 所 以 必须 考虑 到 所 有 可 能 的 指令 ， 并 沿 流水 线 传递 所 有 可 能 有 用 
的 信息 。 

2) 指令 译 码 与 寄存 器 堆 的 读 取 : 图 4-36 的 底部 显示 的 是 /ID 流水 线 寄存 器 的 指令 部 
分 ， 其 中 包括 一 个 16 位 的 立即 数 ( 可 扩展 为 带 符号 的 32 位 数 ) 和 两 个 寄存 器 号 (用 于 读 取 寄 
存 器 ) 。 这 三 个 值 和 自 增 的 PC 地 址 一 起 存 人 ID/EX 流水 线 寄存 器 中 。 这 里 同样 必须 传递 后 面 
指令 可 能 需要 的 所 有 信息 。 

3) 执行 或 者 地 址 计算 : 图 4-37 表示 装载 指令 从 ID/EX 流水 线 寄 存 器 中 读 取 由 寄存 器 1 传 
过 来 的 值 以 及 经 符号 扩展 后 的 立即 数 ， 并 用 ALU 将 它们 相 加 ， 和 值 存 人 EXZMEM 流水 线 寄 存 
器 中 。 

4) 存储 器 访问 : 图 4-38 的 顶端 表示 装载 指令 使 用 从 EXZMEM 流水 线 寄存 器 中 得 到 的 地 
址 读 取 数 据 存储 器 ， 并 将 数据 存 和 人 MEMAWB 流水 线 寄 存 器 中 。 

5) 写 回 : 图 4-38 的 底部 表示 了 最 后 一 个 步骤 ， 即 从 MEMAWB 流水 线 寄存 器 中 读 取 数据 
并 将 它 写 回 图 中 部 的 寄存 器 堆 。 

对 装载 指令 整个 过 程 的 描述 表明 任何 后 面 的 流水 线 级 可 能 用 到 的 信息 必须 通过 流水 线 寄存 
器 传递 。 存 储 指 令 也 是 如 此 。 下 面 是 存储 指令 的 5 个 执行 步 又: 

1) 取 指 令 : 利用 PC 中 的 地 址 从 存储 器 中 读 出 指令 ， 然 后 将 指令 放 和 人 IID 流水 线 寄 存 器 
中 。 这 个 步骤 发 生 在 指令 译 码 之 前 ， 所 以 图 4-36 中 顶端 部 分 既 适 用 于 装载 指令 也 适用 于 存储 


指令 。 






































图 4-37 EX: lw 指令 在 流水 线 中 的 第 三 步 ， 图 4-35 中 活动 的 数据 通路 部 件 用 灰色 表示 。 将 寄存 器 
的 值 与 经 过 符号 扩展 的 立即 数 相 加 ， 其 和 放 人 EX/MEM 流水 线 寄 存 器 中 








lw | 


存储 器 访问 




















图 4-38 MEM 和 WB: lw 指令 在 流水 线 中 的 第 四 步 和 第 五 步 ， 图 4-35 中 活动 的 数据 通路 部 件 用 灰色 表 
示 。 利 用 EX/MEM 流水 线 寄存 器 中 包含 的 地 址 读 取 数 据 存储 器 ， 并 将 读 取 的 数据 放 人 MEM/ 
WB 流水 线 寄存 器 中 ， 然 后 从 MEMAWB 流水 线 寄 存 器 中 读 取 数 据 写 回 数据 通路 中 部 的 寄存 器 
堆 。 请 注意 : 这 里 有 一 个 错误 ， 将 在 后 面 的 图 4-41 中 修复 


2) 指令 译 码 与 寄存 器 堆 的 读 取 : IF/ID 流水 线 寄 存 器 中 的 指令 包括 用 于 读 取 寄 存 器 的 两 
个 寄存 器 号 和 用 于 符号 扩展 的 16 位 立即 数 。 读 出 的 两 个 寄存 器 值 和 符号 扩展 后 的 32 位 立即 数 
都 存放 在 ID/EX 流水 线 寄存 器 中 。 图 4-36 中 的 底部 同时 也 可 描述 装载 指令 的 第 二 个 流水 级 。 
由 于 此 时 并 不 知道 要 执行 的 指令 类 型 ， 因 此 所 有 指令 都 执行 这 两 个 步骤 。 

3) 指令 执行 或 地 址 计算 : 图 4-39 描述 了 sw 指令 在 流水 线 中 的 第 三 步 ， 有 效 地 址 存放 在 
EX/MEM 流水 线 寄存 器 中 。 


























图 4-39 EX: sw 指令 在 流水 线 中 的 第 三 步 。 与 图 4-37 中 装载 指令 的 第 三 个 流水 级 不 同 的 是 ， 第 二 个 寄 
存 器 中 的 数据 被 装 人 EX/MEM 流水 线 寄存 器 中 ， 并 被 用 于 下 个 流水 级 。 虽 然 总 是 将 第 二 个 寄 
存 器 中 的 数据 装 入 EXAMEM 流水 线 寄存 器 中 并 不 会 产生 什么 不 良 影响 ,但 为 了 使 流水 线 更 易 
于 理解 ， 我 们 只 在 存储 指令 中 才 写 第 二 个 寄存 器 的 内 容 


4) 存储 器 访问 : 图 4-40 的 顶端 描述 的 是 数据 写 入 存储 器 的 过 程 。 值 得 注意 的 是 ， 需 要 与 
和信 存储 器 的 数据 在 较 早 的 流水 级 中 已 经 读 出 并 存放 在 ID/EX 中 。 在 MEM 级 唯一 获得 这 个 数据 
的 方法 就 是 把 数据 放 和 人 EX 步 又 中 的 EX/MEM 流水 线 寄 存 器 中 ， 这 一 过 程 与 将 有 效 地 址 放 入 
EXZMEM 中 类 似 。 

5) 写 回 : 图 4-40 的 底部 描述 了 存储 指令 的 最 后 一 步 。 存 储 指令 在 写 回 步骤 中 不 做 任何 事 
情 。 由 于 存储 指令 后 的 每 一 条 指令 都 已 经 进入 流水 线 中 ， 所 以 无 法 加 速 这 些 指 令 。 因 此 ， 任 何 
一 条 指令 都 必须 经 过 流水 线 的 每 一 个 步骤 ， 即 使 在 这 个 步 又 中 它 实 际 上 什么 都 设 有 做 ， 这 是 因 
为 后 面 的 指令 已 经 按照 最 大 的 速率 在 流水 线 中 进行 处 理 。 

存储 指令 再 次 说 明 在 流水 线 中 为 了 从 前 面 的 流水 级 向 后 面 的 流水 级 传递 信息 ， 必 须 将 信息 
放 人 流水 线 寄 存 器 中 ， 和 否则 当下 一 条 指令 进入 该 流水 级 时 这 些 信息 将 会 丢失 。 在 存储 指令 中 ， 


流水 线 寄存 器 中 ， 然 后 传送 到 EX/MEM 流水 线 寄 存 器 中 。 

取 数 指令 与 存储 指令 的 执行 过 程 还 表明 了 男 一 个 重要 特性 ， 即 数据 通路 中 的 每 一 个 逻辑 单元 
(如 指令 存储 器 、 寄 存 器 读 取 端口 、ALU、 数 据 存储 器 以 及 寄存 器 写 入 端口 ) 都 只 能 在 一 个 流水 级 中 
使 用 ， 否 则 就 会 产生 结构 冒险 ( 见 4.5 节 )。 所 以 这 些 单元 及 其 控制 可 以 和 一 个 流水 级 相 联 系 。 

现在 我 们 可 以 修复 图 4-38 中 装载 指令 设计 的 错误 了 。 你 发 现 这 个 错误 了 吗 ? 在 装载 指令 执行 
的 最 后 一 级 写 回 了 哪个 寄存 器 呢 ? 更 确切 地 说 ， 哪 条 指令 提供 了 写 寄存 器 号 呢 ? 在 IVID 流水 线 
寄存 器 中 的 指令 提供 了 写 寄存 器 号 ， 但 是 很 显然 现在 这 条 指令 已 经 是 装载 指令 之 后 的 指令 了 ! 

因此 ， 我 们 要 在 装载 指令 中 保存 目的 寄存 器 号 。 就 像 存储 指令 为 了 MEM 的 需要 将 寄存 器 
的 内 容 从 ID/EX 传送 到 EXZMEM 中 一 样 , 为 了 WB 级 使 用 的 需要 ， 装 载 指令 必须 把 寄存 器 号 
从 ID/EX 经 过 EX/MEM 传送 到 MEMAWB 中 。 从 另 一 个 角度 来 考虑 寄存 器 号 的 传递 ， 为 了 共享 
流水 线 的 数据 通路 ， 我 们 需要 在 下 中 保存 读 取 的 指令 ， 因 此 每 一 个 流水 线 寄 存 器 都 要 保存 当 
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前 和 后 续 流 水 级 所 需 的 部 分 指令 。 

图 4-41 给 出 了 修正 后 的 数据 通路 。 首 先 将 写 寄存 器 号 传送 到 ID/EX 寄存 器 ， 然 后 送 到 
EX/MEM 寄存 器 ， 最 后 送 到 MEMAWB 寄存 器 。 在 WB 级 使 用 寄存 器 号 指定 了 要 写 人 的 寄存 器 。 
图 4-42 是 一 个 简单 的 数据 通路 图 ， 它 标 出 了 从 图 4-36 到 图 4-38 装载 指令 在 所 有 5 个 流水 级 中 
要 使 用 的 硬件 。 阅 读 4. 8 节 可 以 了 解 如 何 使 分 支 指令 按期 望 的 方式 工作 。 


SW 


/ 存储 器 访问 1 











写 回 














图 4-40 MEM 和 WB: sw 指令 在 流水 线 中 的 第 四 步 和 第 五 步 。 第 四 步 将 数据 写 人 数据 存储 器 中 ， 写 人 
数据 来 自 于 EX/MEM 流水 线 寄存 器 。MEM/WB 流水 线 寄存 器 没有 改变 。 一 旦 数据 写 人 存储 
器 ， 存 储 指令 就 没有 什么 可 做 的 了 ， 所 以 在 第 五 步 中 存储 指令 并 不 做 任何 处 理 
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图 4-41 可 正确 执行 装载 指令 的 流水 线 数据 通路 。 写 寄存 器 号 与 数据 一 起 从 MEM/WB 流水 线 寄存 器 
中 得 到 。 通 过 在 最 后 的 三 个 流水 线 寄 存 器 上 分 别 增加 5 位 ， 寄 存 器 号 就 能 从 ID 流水 级 一 直 
传送 到 MEMAWB 流水 线 寄存 器 。 新 的 路 径 以 灰色 线 标识 











MEM/WB 

















图 4-42 图 4-41 中 指令 的 五 级 流水 线 中 用 到 的 全 部 数据 通路 


4.6.1 图 形 化 表示 的 流水 线 


流水 线 技术 比较 难以 理解 ， 因 为 在 每 一 个 时 钟 周期 内 同时 会 有 很 多 指令 在 一 个 数据 通路 中 
执行 。 为 了 帮助 理解 流水 线 ， 有 两 种 基本 的 表示 流水 线 的 图 形 化 方法 ， 即 多 时 钟 周期 的 流水 线 
图 ( 见 图 4-34) 和 单 时 钟 周期 的 流水 线 图 〈 见 图 4-36 ~ 图 4-40) 。 多 时 钟 周期 图 虽然 简单 但 不 


包括 所 有 的 细节 。 
1w $10 ， 
Sub $1 
add $12, 
1w $13, 
add $14, 


下 面 以 这 5 条 指令 构成 的 指令 序列 为 例 进行 说 明 
20($1) 
$2，43 
$3, $4 
24($1) 
$5, $6 








图 4-43 表示 的 是 该 指令 序列 的 多 时 钟 周 期 流水 线 图 。 与 图 4-25 中 洗衣 店 流水 线 的 表示 方 
法 类 似 ， 时 间 从 左 到 右前 进 ， 指 令 从 上 到 下 前 进 。 沿 着 指令 轴 分 别 表示 各 流水 级 以 及 所 占据 的 
时 钟 周期 。 这 些 程式 化 的 数据 通路 用 图 形 的 方式 展示 了 流水 线 的 5 个 级 别 ， 但 用 方 框 来 命名 每 
个 流水 线 等 级 也 是 很 好 的 表示 方法 。 图 4-44 给 出 了 一 个 更 加 传统 的 多 时 钟 周期 流水 线 图 的 表 
示 方 法 。 需 要 注意 的 是 ， 图 4-43 中 描述 的 是 每 个 步骤 中 使 用 的 物理 资源 ， 而 图 4-44 描述 的 是 
每 个 步骤 的 名 称 。 
单 时 钟 周期 流水 线 图 表示 的 是 在 一 个 时 钟 周期 内 整个 数据 通路 的 状态 ， 通 常 所 有 5 个 流水 
级 中 的 指令 都 在 各 流水 级 上 做 相应 的 标志 。 这 种 流水 线 图 描述 了 在 每 一 个 时 钟 周 期 内 流水 线 中 
所 发 生 事件 的 细节 。 通 常 ， 可 使 用 一 组 单 时 钟 周 期 流水 线 图 来 表示 在 一 系列 时 钟 周期 内 的 流水 
线 操作 ， 而 使 用 多 时 钟 周期 流水 线 图 对 流水 线 总 体 进行 全 局 描述 。( 如 果 你 对 图 4-43 的 细节 感 
兴趣 ， 可 参考 4. 13 节 中 对 单 时 钟 周 期 图 的 描述 ) 。 从 多 时 钟 周期 图 中 抽出 一 个 时 钟 周期 就 表示 
了 单 时 钟 周期 图 流水 线 的 状态 ， 其 中 显示 了 流水 线 中 每 条 指令 对 数据 通路 的 使 用 。 例 如 ， 
图 4-45 的 单 时 钟 周期 图 对 应 的 就 是 图 4-43 和 图 4-44 的 第 5 个 时 钟 周期 。 很 明显 ， 单 时 钟 周期 
图 可 以 表现 更 多 的 细节 ， 但 表示 同样 多 时 钟 周期 时 所 占 空 间 要 比 多 时 钟 周期 图 大 得 多 。 本 章 后 
面 的 练习 会 要 求 你 根据 其 他 的 指令 序列 画 出 对 应 的 流水 线 图 。 
时 间 〈 以 时 钟 周期 计 ) 











cel cc2 cc3 cca cc5 cc6 Ccc7 ccg cc9 
程序 执行 顺序 

( 按 指令 序 ) 

Iw $10,20($1) IReg| | Si lr Reg| 

sib $11,$2,93 

add $12, $3, $4 

Iw $13,24($1) 

add$14.95.96 





图 4-43 5 条 指令 的 多 时 钟 周期 流水 线 图 。 此 种 流水 线 图 在 一 幅 图 中 表示 了 指令 序列 的 完整 执行 过 
程 。 指 令 从 上 到 下 按照 执行 的 顺序 被 排列 ， 时 钟 周期 从 左 向 右前 进 。 与 图 4-28 流水 线 表示 
方法 不 同 的 是 ， 本 图 给 出 了 每 一 级 的 流水 线 寄 存 器 。 图 4-44 给 出 了 这 种 图 更 为 传统 的 表示 
方法 
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时 间 《〈 以 时 钟 周 期 计 ) 














CC1 CC2 CC3 CC4 CC5 CC6 CC7 CC8 CC9 
程序 执行 顺序 
( 按 指令 序 ) 
lw $10, 20 ($1) 取 指 令 指令 译 码 
sib $11, $2, $3 取 指令 





add $12, $3, $4 





lw $13, 24($1) 





add $14, $5, $6 

















图 4-44 ”相对 图 4-43 更 为 传统 的 多 时 钟 周期 流水 线 图 


| add $14, $5, $6 | Iw$13,24($1) | add $12, $3, $4 | sub $11, $2, $3 | Iw $10,20($1) | 
| 取 指 令 | 指令 译 码 | 执行 | 存储 器 访问 | 。 写 回 | 








图 4-45 对 应 图 4-43 和 图 4-44 的 流水 线 第 5 个 时 钟 周期 的 单 时 钟 周期 流水 线 。 从 图 中 可 以 看 出 ， 
” 单 时 钟 周期 图 就 是 从 多 时 钟 周期 图 中 抽出 的 一 列 


人 车 ] 小 测验 
几 个 学 生 在 讨论 五 级 流水 线 的 效率 问题 。 有 一 个 学 生 指出 并 非 所 有 流水 级 中 的 指令 都 是 活 
动 的 。 在 忽略 冒险 的 情况 下 ， 他 们 作出 了 以 下 几 个 断言 ， 其 中 哪 一 个 是 正确 的 ? 
1) 允许 跳 转 、 分 支 、ALU 指令 使 用 比 5 级 (装载 指令 需要 的 级 数 ) 更 少 的 级 数 将 在 所 有 
情况 下 增加 流水 线 的 性 能 。 
2) 允许 一 些 指令 使 用 更 少 的 级 数 并 不 能 提高 性 能 ， 因 为 吞吐 率 是 由 时 钟 周 期 决定 的 。 每 
条 指令 所 需 的 流水 线 级 数 仅 影响 它 的 延迟 时 间 ， 而 不 影响 吞吐 率 。 
3) 不 可 能 减少 ALU 指令 所 需 的 时 钟 周 期 数 ， 因 为 它们 需要 写 回 结果 。 不 过 分 支 和 跳 转 指 
令 是 可 以 减少 时 钟 周 期 数 的 ， 因 此 存在 改善 性 能 的 机 会 。 
4) 相对 于 尝试 减少 指令 所 需 的 时 钟 周期 数 ， 我 们 可 以 延长 流水 线 的 级 数 ， 虽 然 每 条 指令 
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花费 更 多 的 时 钟 周期 数 ， 但 时 钟 周 期 的 长 度 变 短 了 ， 这 样 才 能 提高 性 能 。 
4. 6.2 流水线 控制 


相对 以 前 的 任何 计算 机 ，6600 型 计算 机 的 控制 系统 是 大 不 相同 的 。 
—— James Thomton, 《 Design of a Computer: The Control Data 6600), 1970 


4.3 节 介绍 了 在 单 周期 数据 通路 加 入 控制 的 方法 ， 下 面 我 们 将 介绍 在 采用 流水 线 的 数据 通 
路 中 如 何 加 入 控制 。 首 先 我 们 在 带 有 诸多 限制 条 件 下 通过 一 个 简单 设计 方案 了 解 流水 线 控制 。 

我 们 首先 要 做 的 工作 就 是 标识 已 有 数据 通路 上 的 控制 信号 ， 如 图 4-46 所 示 。 我 们 尽量 借 
用 图 4-17 中 简单 数据 通路 的 控制 方法 ， 特 别 是 使 用 相同 的 ALU 控制 逻辑 、 分 支 逻 辑 、 目 的 寄 
存 器 号 多 选 器 和 控制 信号。 尽管 图 4-12、 图 4-16 以 及 图 4-18 中 已 给 出 了 这 些 功能 单元 的 定义 ， 
为 了 使 下 面 的 内 容 更 易于 理解 ， 图 4-47 ~ 图 4-49 重新 对 其 进行 了 解释 。 


| PCSrc 
IF/ID ID/EX EX/MEM | MEM/WB 


左 移 Branch 
2 位 









RegWrite 


MemWrite 
MemtoReg 














RegDst 


图 4-46 在 图 4-41 上 增加 了 控制 信号 的 流水 线 数据 通路 。 这 个 数据 通路 采用 了 与 4.4 节 中 相同 的 PC 源 
控制 逻辑 、 寄 存 器 目标 号 和 ALU 控制 。 需 要 注意 的 是 ， 这 时 在 EX 流水 级 中 指令 需要 一 个 6 位 
的 功能 字段 (功能 码 ) 作为 ALU 控制 的 输入 ， 所 以 该 6 位 字段 必须 存放 在 ID/EX 流水 线 寄存 
器 中 。 而 该 6 位 字段 是 指令 中 立即 数 的 低 6 位 ， 由 于 在 对 立即 数 进行 符号 扩展 时 低 6 位 没有 发 
生变 化 ， 所 以 ID/EX 流水 线 寄存 器 可 以 从 立即 数 中 获得 这 6 位 数 


与 单 时 钟 周期 实现 方法 一 样 ， 我 们 假定 在 每 个 时 钟 周期 内 都 会 写 PC， 因 此 就 不 需要 单独 
的 PC 写 信号 。 同 理 ， 流 水 线 寄存 器 (IF/ID、ID/EX、EX/MEM 和 MEMAWB) 也 不 需要 单独 
的 写 信 号 ， 因 为 在 每 个 周期 它们 也 会 写 人 一 次 。 

为 了 详细 说 明 流水 线 的 控制 问题 ， 我 们 只 需要 在 每 一 个 流水 级 中 都 设置 相应 的 控制 信号 。 
由 于 每 一 个 控制 信号 只 与 某 个 流水 级 中 的 某 个 功能 单元 相关 ， 因 此 我 们 可 以 根据 流水 线 的 5 级 
将 控制 信号 分 成 5 组 : 

1) 取 指 令 : 读 指令 存储 器 和 写 PC 的 控制 信号 总 是 有 效 的 ， 因 此 在 取 指 阶段 没有 特别 需 
要 控制 的 内 容 。 

2) 指令 译 码 / 寄 存 器 堆 读 : 与 第 一 步 类 似 ， 在 每 个 时 钟 周期 内 本 阶段 所 做 的 工作 都 是 完全 
相同 的 ， 因 此 不 需要 设置 控制 信号 。 

3) 指令 执行 /地 址 计算 : 控制 信号 有 RegDst、ALUOp 和 ALUSrc ( 见 图 4-47 和 图 4-48 )。 
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根据 这 些 信号 选择 结果 寄存 器 、ALU 操作 ， 并 为 ALU 读 取 数 据 2 或 符号 扩展 后 的 立即 数 。 

4) 存储 器 访问 : 这 一 步 的 控制 信号 有 Branch、MemRead 和 MemWrite。 这 些 控制 信号 分 别 
由 相等 则 分 支 、 装 载 指令 和 存储 指令 设置 。 除 非 控制 电路 确定 是 一 条 分 支 指令 并 且 ALU 结 
为 0， 否 则 将 选择 线性 地 址 中 的 下 一 条 指令 作为 图 4-48 中 的 PCSre 信号 。 

5) 写 回 : 控制 信号 有 MemtoReg 和 RegWrite， 其 中 前 者 决定 是 将 ALU 结果 还 是 将 存储 器 
数据 传送 到 寄存 带 堆 ， 后 者 决定 是 否 写 人 寄存 器 堆 。 

由 于 采用 流水 线 方式 的 数据 通路 并 不 改变 控制 信号 的 意义 ， 因 此 可 以 使 用 与 简单 数据 通路 相同 

的 控制 信号 。 图 4-49 就 与 4 4 节 具 有 相同 的 控制 信号 ， 只 是 这 9 个 控制 信号 按 流水 级 进行 了 分 组 。 
“指令 操作 码 作 |ALU 控制 信号 

LW 00 取 字 XXXXXX | 加 0010 



































































SW 00 存 学 XXXXXX 加 0010 
相等 则 分 支 01 相等 则 分 支 XXXXXX 减 0110 
R 型 10 加 100000 加 0010 
R 型 10 减 100010 减 0110 
R 型 10 与 100100 与 0000 
R 型 10 或 100101 或 0001 
R 型 10 小 于 则 置 位 101010 小 于 则 置 位 0111 
图 4-47 图 4-12 的 副本 。 本 图 描述 了 如 何 根据 ALUOP 控制 位 和 不 同 R 型 指令 的 


功能 码 设置 ALU 控制 信号 的 值 






























置 无 效 时 的 效果 (0) | Xbox 
RegDst 写 入 寄存 器 的 目标 号 来 自 蕊 字段 (20:16 位 ) 写 人 寄存 器 的 目标 号 来 自 志 字段 (15:11 位 ) 
RegWiite 无 写 人 寄存 器 的 源 寄存 器 设置 为 输入 的 写 人 数据 

第 二 个 ALU 操作 数 来 自 第 二 个 寄存 器 堆 的 a Pn 
AR | tn 第 二 个 ALU 操作 数 是 指令 低 16 位 的 符号 扩展 
PCSrc PC 被 PC +4 替代 PC 被 分 支 目标 地 址 替代 
MemRead | 无 输入 地 址 对 应 的 数据 存储 器 的 内 容 为 读数 据 的 输出 
i 输入 地 址 对 应 的 数据 存储 器 的 内 容 蔡 换 为 写 数据 
emWnite 无 

的 输入 

MemtoReg “| ”ALU 提供 寄存 器 写 数据 的 输入 数据 存储 器 提供 寄存 器 写 数据 的 输入 























图 4-48 图 4-16 的 副本 。 图 中 定义 了 7 个 控制 信号 的 功能 。ALUOp 已 经 在 图 4-47 的 第 二 列 中 定义 。 当 一 个 二 
路 多 选 器 的 控制 位 有 效 时 ， 多 选 器 选择 1 对 应 输入 ; 否则， 如 果 控 制 位 无 效 ， 多 选 器 选择 0 对 应 输 
人 和。 注意 PCSrc 是 由 图 4-46 的 一 个 与 门 控制 的 。 如 果 分 支 信号 与 ALU 的 零 信 号 都 有 效 ， 则 PCSre 为 
1， 和 否则 为 0。 控制 单元 仅 在 beq 指令 中 才 设 置 分 支 信号 有 效 ， 其 他 时 候 PCSre 都 会 为 0 


执行 /地 址 计算 阶段 的 控制 信号 ”存储 器 存 取 阶段 的 控制 信号 。 | 写 回 阶段 的 榨 制 信号 


< 



































| R 型 | 1 1 0 | 0 0 0 0 Gr "| 
| lw | 0 0 | 0 1 0 1 Ts 1 

SW X | 0 0 1 0 0 1 0 X 
beq ] x 0 1 0 | 1 0 0 0 x 








图 4-49 ” 按 流水 线 最 后 三 级 分 为 三 组 的 控制 信号 ， 其 值 与 图 4-18 相同 
实现 控制 就 是 为 每 一 条 指令 的 每 一 个 步骤 中 的 9 个 控制 信号 设置 合适 的 值 ， 其 最 简单 的 实 
现 方法 就 是 扩展 流水 线 寄 存 器 使 之 包含 这 些 控制 信号 。 
由 于 控制 从 EX 级 开始 ， 因 此 可 以 在 指令 译 码 阶段 创建 控制 信号 。 图 4-50 描述 了 当 指 令 在 
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流水 线 中 传递 时 控制 信号 的 使 用 方法 ， 这 一 点 与 图 4-41 中 执行 装载 指令 时 目的 寄存 器 号 在 流 
水 线 中 的 传递 过 程 类 似 。 图 4-51 描述 了 带 有 扩展 流水 线 寄存 器 且 将 控制 信号 连接 到 相应 流水 
级 的 完整 数据 通路 。( 如 果 你 想 知 道 更 多 的 细节 ，4. 13 节 给 出 了 更 多 MIPS 代码 在 流水 线 硬件 
中 执行 的 单 时 钟 周期 流水 线 图 。) 


WB 








指令 
广 ” 控制 M WB 
EX M WB 
IF/ID ID 和 正 X EX/MEM MEM/WB 


图 4-50 ”流水 线 最 后 三 级 的 控制 信号 。 汕 要 注意 的 是 , 9 个 控制 信号 中 有 4 个 用 于 EX 级 ， 而 剩 下 的 5 个 
控制 信号 被 传递 到 扩展 的 保存 控制 信号 的 EXAMEM 流水 线 寄存 器 中 ; 传递 来 的 5 个 控制 信号 中 
有 3 个 用 于 MEM 级 ， 剩 下 的 2 个 传递 到 MEMAWB 并 用 于 WB 级 


PCSre 


~ EXMEM 

















图 4-51 图 4-46 中 的 流水 线 数据 通路 ,已 将 控制 信号 连接 到 流水 线 寄存 器 的 控制 部 分 。 流 水 线 最 后 三 级 
的 控制 信号 是 在 指令 译 码 阶段 创建 的 ， 随 后 放 入 ID/EX 流水 线 寄存 器 。 每 个 流水 级 使 用 相应 的 
控制 信和 号， 并 将 剩余 的 控制 信号 传递 到 下 个 流水 级 
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4.7 数据 冒险 : 旁 路 与 阻塞 


这 是 什么 意思 ， 为 什么 要 构建 它 ” 这 是 帝 路 ， 你 必须 构建 帝 路 。 
——Douglas Adams, 《The Hitchhiker s Guide to the Galay) , 1979 

上 节 的 例子 介绍 了 流水 线 的 强大 功能 以 及 硬件 如 何以 流水 线 的 方式 执行 任务 。 本 节 我 们 避 
开 这 些 光 环 ， 看 看 流水 线 在 实际 程序 中 的 情况 。 图 4-43 ~ 图 4-45 中 的 各 指令 之 间 是 相互 独立 
的 ， 其 中 任何 一 条 指令 都 没有 用 到 任何 其 他 指令 的 计算 结果 。 然 而 ,在 4.5 节 中 我 们 就 已 经 发 
现 数据 冒险 是 影响 流水 线 执行 的 主要 障碍 之 一 。 

让 我 们 分 析 下 面 这 个 带 有 许多 相关 性 的 指令 序列 (依赖 关系 以 粗 体 标 出 ): 

Sub $2, $1,$3 # Register $2 written by sub 


and $12,$2,$5 # 1St operand($2) depends on sub 
or $13,$6,$2 # 2nd operand($2) depends on sub 
add $14,$2,$2 # 1lst($2) & 2nd($2) depend on sub 
SW $15,100($2) # Base ($2) depends on sub 


后 4 条 指令 都 依赖 于 第 一 条 指令 得 到 的 寄存 器 $2 的 结果 。 如 果 寄 存 器 $2 在 sub 指令 
行 之 前 的 值 为 10 ， 而 在 sub 指令 执行 之 后 的 值 为 -20， 程 序 员 认 为 后 4 条 指令 访问 到 的 寄存 
器 $2 的 值 为 -20。 

这 个 指令 序列 在 流水 线 中 是 如 何 执行 的 呢 ? 图 4-52 用 多 时 钟 周期 流水 线 图 进行 了 表示 。 
为 了 在 当前 流水 线 中 表示 这 个 指令 序列 的 执行 过 程 ， 图 4-52 的 顶部 给 出 了 寄存 器 $2 中 的 值 ， 
可 以 看 出 寄存 器 $2 的 值 在 第 5 个 时 钟 周期 的 中 间 发 生 改 变 ， 也 就 是 sub 指令 写 结果 的 时 候 。 

最 后 一 个 潜在 的 冒险 可 以 通过 设计 相应 的 寄存 器 堆 硬 件 解决 。 当 一 个 寄存 器 在 同一 时 钟 周 
期 内 同时 读 和 写 时 会 发 生 什 么 呢 ? 这 里 我 们 假设 写 寄存 器 操作 发 生 在 时 钟 周期 的 前 半 段 而 读 寄 
存 器 操作 发 生 在 时 钟 周 期 的 后 半 段 ， 因 此 读 操作 将 读 取 到 最 新 写 入 的 内 容 。 大 多 数 寄存 器 堆 的 
实现 方法 与 我 们 的 假设 是 一 致 的 ， 而 且 在 这 种 假设 条 件 下 不 会 发 生 数据 冒险 。 

图 4-52 表明 如 果 在 第 5 个 时 钟 周期 之 前 读 寄存 器 $2 ， 读 操作 得 到 的 寄存 器 值 就 不 会 是 sub 指 
令 的 结果 。 因 此 ， 指 令 add 和 sw 可 得 到 正确 结果 -20， 而 指令 AND 和 OR 将 得 到 错误 结果 10。 使 
用 这 种 风格 的 流水 线 图 ， 当 一 条 依赖 关系 的 方向 与 时 间 轴 相反 时 ， 该 问题 就 变 得 很 明显 。 

正如 4.5 节 所 提 到 的 那样 ，sub 指令 在 EX 级 (第 3 个 时 钟 周期 ) 的 末尾 就 可 以 得 到 需要 
的 结果 。 那 么 AND 指令 和 OR 指令 什么 时 候 真正 需要 该 数据 呢 ? 应 该 是 在 AND 指令 和 OR 指令 
的 EX 级 开始 前 ， 分 别 是 第 4 个 和 第 5 个 时 钟 周期 。 所 以 只 要 我 们 在 刚 得 到 数据 时 就 将 其 旁 路 
给 所 需 的 单元 而 不 是 等 待 其 可 以 从 寄存 器 堆 中 读 出 来 ， 就 可 以 无 阻塞 地 执行 这 两 条 指令 了 。 

旁 路 到 底 是 怎样 工作 的 呢 ? 在 本 节 下 面 的 部 分 ， 为 了 简化 讨论 ， 我 们 仅 考 虑 如 何 直接 传送 
EX 段 产生 的 数据 ， 该 数据 可 能 是 ALU 运算 的 结果 ， 也 可 能 是 地 址 计算 的 结果 。 这 意味 着 如 果 
一 条 指令 试图 在 EX 级 使 用 前 面 一 条 指令 在 WB 级 才 写 人 寄存 器 堆 的 数据 时 ， 我 们 需要 提前 将 
数据 送 到 ALU 的 输入 端 。 

一 种 更 精确 的 表示 相关 性 的 方法 是 使 用 流水 线 寄 存 器 字段 。 例 如 ，ID7VEX. RegisterRs 表示 
一 个 需要 流水 线 寄存 器 ID/EX 获得 的 源 寄 存 器 号 ， 其 值 可 在 流水 线 寄存 器 中 ID/EX 中 找到 。 
这 个 名 称 的 第 一 部 分 ， 即 点 号 的 左边 ， 表 示 流 水 线 寄存 器 的 名 称 ; 第 二 部 分 表示 寄存 器 中 字段 
的 名 称 。 使 用 这 种 表示 方法 ，4 个 冒险 条 件 分 别 是 : 

la. EX/MEM. RegisterRd = ID/EX. RegisterRs 

lb. EX/MEM. RegisterRd = ID/EX. RegisterRt 

2a. MEM/WB. RegisterRd = ID/EX. RegisterRs 

2b. MEM/WB. RegisterRd = ID/EX. RegisterRt 
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时 间 《〈 以 时 钟 周期 计 ) 





寄存 器 $2 的 值 CC1 CC2 CC3 CC4 CC5 CC6 CC7 CC8 Cc9 
10 10 10 10 10/-20 -20 -20 -20 -20 
程序 执行 顺序 
( 按 指令 序 ) 





sub $2, $1, $3 四 上 
and $12, $2, $5 


or $13, $6, $2 
add $14, $2, $2 


sw $15, 100 ($2) 


图 4-52 ”使 用 简化 数据 通路 表示 一 个 由 5 条 指令 组 成 的 指令 序列 中 的 流水 线 相关 情况 来 说 明 相关 问题 。 
所 有 的 相关 都 用 灰色 标记 出 来 ， 顶 部 的 “CC 1” 表 示 第 1 个 时 钟 周 期 。 指 令 序 列 中 第 一 条 指令 
写 寄存 器 $2， 后 4 条 指令 读 寄 存 器 $2 。 寄 存 器 $2 在 第 5 个 时 钟 周期 被 写 人 ， 所 以 在 此 之 前 它 
的 值 都 是 无 效 的 。( 当 这 样 的 写 操作 发 生 时 ， 一 个 时 钟 周 期 中 寄存 器 的 读 操 作 返 回 该 周期 前 半 段 
写 入 的 值 。) 数据 相关 性 用 数据 通路 中 从 顶部 到 底部 的 灰 线 表示 。 那 些 导致 时 间 后 退 的 依赖 就 是 
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本 节 开 始 给 出 的 指令 序列 的 第 一 个 冒险 发 生 在 sub $2, $1, $3 的 结果 和 and $12, $2， 
$5 的 第 一 个 读 操作 数 之 间 。 这 个 冒险 在 and 指令 处 于 EX 级 而 sub 指令 处 于 MEM 级 时 就 能 
检测 出 来 ， 这 就 是 冒险 1a: 
EX/MEM. RegisterRd = ID/EX. RegisterRs = $2 。 


邯 ] 例题 相关 性 检测 


将 前 面 指令 序列 中 的 相关 性 进行 分 类 : 

sub $2, $1,， $3 # Register $2 set by sub 

and $12, $2, $5 # lst operand($2) set by sub 

or $13, $6, $2 # 2nd operand($2) set by Sub 

add $14, $2, $2 # 1st($2) & 2nd($2) set by sub 

sw $15, 100($2) # Index($2) set by sub 


团 | 答案 
如 上 所 述 ，sub-and 是 一 个 1a 类 冒险 。 其 余 的 冒险 分 别 是 : 
e。 sub-or 是 一 个 2b 类 冒险 : 
MEM/WB. RegisterRd = ID/EX. RegisterRt = $2 
。 sub-add 上 的 两 个 相关 性 都 不 是 冒险 ， 因 为 在 add 的 了 D 级 寄存 器 堆 已 能 提供 相应 的 数据 。 
。 sub 指令 和 sw 指令 之 间 也 不 存在 数据 冒险 ， 因 为 sw 指令 在 sub 指令 写 寄存 器 $2 后 
才 读 取 $2。 0 


但 是 ， 直 接 采 用 总 是 旁 路 的 方式 解决 冒险 是 不 正确 的 ， 因 为 某 些 指令 可 能 不 写 回 寄存 器 ， 
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就 会 产生 一 些 不 必要 的 旁 路 。 一 种 简单 的 解决 方法 是 检测 RegWrite 信号 是 否 是 活动 的 ， 即 通过 
检测 流水 线 寄存 器 在 EX 和 MEM 级 的 WB 控制 字段 以 确定 RegWrite 而 且 ，MIPS 
要 求 $0 始终 为 0， 这 就 需要 在 目标 寄存 器 是 $0 的 情况 下 (如 sll $0， 2 ) ， 必 须 避 免 

把 $0 按 非 零 结 果 旁 路 ， 从 而 使 得 汇编 程序 员 和 编译 器 不 必 考 虑 $0 机 情况 。 
因此 ， 需 要 在 第 一 类 冒险 条 件 中 加 入 附加 条 件 EXZMEM. RegisterRd 关 0， 在 第 二 类 冒险 条 件 中 
加 入 附加 条 件 MEM/WB. RegisterRd 0。 

至 此 ， 我 们 介绍 了 检测 冒险 的 方法 ， 问 题 已 经 解决 了 一 半 ， 但 仍然 需要 解决 旁 路 数据 策略 
的 问题 。 

图 4-53 描述 了 图 4-52 的 指令 序列 中 流水 线 寄存 器 和 ALU 输入 间 的 相关 性 。 与 图 4-52 不 同 
的 是 ， 这 里 的 相关 性 开始 于 一 个 流水 线 寄存 器 而 不 是 等 待 WB 级 写 操作 的 寄存 器 堆 。 由 于 流水 
线 寄 存 器 保存 了 需要 旁 路 的 数据 ， 因 此 后 面 的 指令 能 够 获得 相应 的 数据 。 





时 间 〈 以 时 钟 周期 计 ) > 
ee CE CC3 CC4 CC 5 CC6 CC7 CC8 CC 9 
寄存 器 $ 2 的 值 : 10 10 10 10 10/-20 -20 -20 -20 -20 
EX/MEM 的 内 容 : XX X X -20 以 演 X be X 
MEM/WB 的 内 容 : X 莹 索 区 -20 4 xX X 区 


程序 执行 顺序 


( 按 指令 序 ) 
sub$2, $l, $3 ， | = 


or $13, $6, $2 









Regl 






祖 
gl 
pM 






add $14, $2, $2 


; 2 i 


图 4-53 流水线 寄存 器 间 的 相关 随 着 时 间 移 动 ， 所 以 通过 旁 路 流水 线 寄存 器 中 保存 的 结果 就 有 可 能 提供 
AND 指令 和 OR 指令 所 需 的 ALU 输入 。 流 水 线 寄 存 器 存 有 相应 的 值 ， 在 数据 写 人 寄存 器 堆 之 前 
就 已 经 有 效 了 。 如 果 寄 存 器 堆 可 在 同一 时 钟 周期 内 旁 路 要 读 写 的 数据 ，adaq 指令 就 不 用 阻塞 
了 。 这 种 寄存 器 堆 的 旁 路 的 值 不 是 来 自 于 流水 线 寄存 器 而 是 来 自 寄 存 器 堆 。 它 使 得 寄存 器 $2 
中 的 值 在 第 5 个 时 钟 周期 的 开始 是 10 ， 而 在 周期 结束 时 是 -20， 即 在 这 一 时 钟 周期 里 读 操作 
读 到 的 值 是 写 操作 写 入 的 值 。 在 本 节 下 面 的 部 分 , 我 们 将 处 理 所 有 的 旁 路 (除了 存储 指令 要 
存 的 数值 之 外 ) 


如 果 可 以 从 任何 流水 线 寄存 器 而 不 仅仅 从 IDAEX 中 得 到 ALU 的 输入 ， 那 么 就 可 以 旁 路 所 
需 的 数据 。 通 过 在 ALU 的 输入 中 加 入 多 选 器 和 正确 的 控制 策略 ， 就 可 以 在 存在 相关 性 的 情况 
下 仍然 能 够 全 速 运行 流水 线 。 

现在 ,假设 需要 旁 路 的 指令 只 有 4 个 R 型 指令 : add、sub、AND 和 OR。 图 4-54 给 出 了 在 
加 入 旁 路 机 制 前 后 ，ALU 和 流水 线 寄 存 器 的 示意 图 。 图 4-55 给 出 了 在 寄存 器 堆 值 和 某 一 旁 路 
的 数值 间 进行 选择 的 ALU 多 选 器 控制 信号 的 值 。 
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因为 ALU 劳 路 多 选 器 在 EX 中 ， 所 以 旁 路 控制 也 在 这 一 级 中 完成 。 因 此 ， 我们 必须 通过 
IDZEX 流水 线 寄存 器 从 ID 级 中 获得 操作 数 寄 存 器 号 ， 以 决定 是 否 旁 路 相应 的 值 。 我 们 已 经 有 
了 rt 字 段 (20 ~16 位 )。 在 支持 旁 路 前 ，ID/EX 流水 线 寄 存 器 未 保存 rs 字段 。 因 此 ， 为 支持 旁 
路 ，rs(25 ~21 位 ) 被 加 入 ID/EX 流水 线 寄存 器 中 。 


ID/EX EX/MEM MEM/WB 








a) 未 使 用 旁 路 


ID/EX EX/MEM MEM/WB 





b) 使 用 旁 路 


图 4-54 加 入 旁 路 机 制 前 后 的 ALU 和 流水 线 寄存 器 。 下 图 使 用 多 选 器 增加 了 旁 路 路 径 ， 并 标识 了 旁 路 单 
元 。 新 硬件 用 灰色 表示 。 本 图 只 是 一 个 示意 图 ， 没 有 标识 诸如 符号 扩展 硬件 之 类 的 细节 。 需 要 
注意 的 是 ， 尽 管 ID/EX. RegisterRt 字段 在 图 中 标识 了 两 次 ， 一 根 连接 到 多 选 器 ,一 根 连接 到 旁 
路 单元 ， 但 实际 上 它 是 一 个 信号 。 如 前 所 述 ， 这 里 还 忽略 了 旁 路 存储 指令 中 数据 的 情况 。 还 有 
一 点 要 注意 的 是 ， 这 一 机 制 也 适用 于 slt 指令 


i 
DX 一 个 AL 扣 作 数 来 自 下 
| ForwardA =10 | 10 EX/MEM 


第 一 个 ALU 操作 数 由 上 一 个 ALU 运算 结果 旁 路 获得 
ForwardA =01 MEM/WB 第 一 个 ALU 操作 数 从 数据 存储 器 或 者 前 面 的 ALU 结果 中 旁 路 获得 
ForwardB = 10 EX/MEM 第 二 个 ALU 操作 数 由 上 一 个 ALU 运算 结果 旁 路 获得 
MEM/WB 第 二 个 ALU 操作 数 由 数据 存储 器 或 者 前 面 的 ALU 结果 旁 路 获得 
图 4-55 图 4-54 中 旁 路 多 选 器 的 控制 信号 。 作 为 ALU 另 一 个 输入 的 带 符号 
立即 数 将 在 本 节 的 “ 精 解 ”部 分 中 解释 













































310 


210 


潍 
EN 
地 





下 面 将 给 出 检测 冒险 的 条 件 以 及 解决 冒险 的 控制 信号 : 

1) EX 冒险 : 

if (EX/MEM.RegWrite 

and (EX/MEM.RegisterRd = 上 0) 

and (EX/MEM.RegisterRd = ID/EX.RegisterRs)) ForwardA = 10 


if (EX/MEM.RegWrite 
and (EX/MEM.RegisterRd * 0) 
and (EX/MEM.RegisterRd = ID/EX.RegisterRt)) ForwardB = 10 


注意 ，EX/MEM. RegisterRd 字段 是 ALU 指令 (来自 Rd 字段 ) 或 装载 指令 (来自 Rt 字段 ) 
的 目标 寄存 器 号 。 

这 种 情况 是 将 前 一 条 指令 的 结果 旁 路 到 任何 一 个 ALU 输入 中 。 如 果 前 一 条 指令 要 写 寄存 
器 堆 且 要 写 的 寄存 器 号 与 ALU 输入 要 读 的 寄存 器 号 (A 或 B) 一 致 〈 只 要 不 是 寄存 器 0)， 那 
么 就 调整 多 选 右 从 流水 线 寄存 器 EXAMEM 中 读 取 数值 。 

2) MEM 冒险 : 

if (MEM/WB.RegWrite 


and (MEM/WB.RegisterRd # 0) 
and (MEM/WB.RegisterRd = ID/EX.RegisterRs)) ForwardA = 01 


if (MEM/WB.RegWrite 
and (MEM/WB.RegisterRd #* 0) 
and (MEM/WB.RegisterRd = ID/EX.RegisterRt)) ForwardB = 01 


如 上 所 述 ， 在 WB 级 不 会 发 生 冒 险 ， 这 是 因为 我 们 假设 在 ID 级 指令 读 取 的 寄存 器 与 WB 
级 指令 写 和 的 寄存 器 是 同一 寄存 器 时 ， 就 由 寄存 器 堆 提 供 正确 的 结果 。 这 样 ， 寄 存 器 堆 实 现 了 
另 一 种 形式 的 旁 路 ,但 这 种 旁 路 只 发 生 在 寄存 器 堆 内 部 。 

更 为 复杂 的 潜在 数据 冒险 发 生 在 WB 级 的 指令 结果 、MEM 级 的 指令 结果 和 ALU 级 的 指令 
源 操作 数 之 间 。 例 如 ， 在 一 个 寄存 器 中 对 多 个 数字 进行 求 和 运算 时 ， 一 系列 连续 的 指令 将 会 读 
写 到 同一 寄存 器 : 

add $1,$1,$2 


add $1,$1,$3 
add $1 ,$1 ,$4 


在 这 种 情况 下 ， 由 于 MEM 级 的 结果 是 最 新 的 ， 因 而 结果 是 由 MEM 级 旁 路 得 到 。 这 样 ， 对 
MEM 冒险 的 控制 策略 为 〈 额 外 加 入 的 条 件 采 用 粗 体 表示 ) : 


if (MEM/WB.RegWrite 
and (MEM/WB.RegisterRd = 0) 
and not(EX/MEM.RegWrite and (EX/MEM.RegisterRd #* 0) 
and (EX/MEM.RegisterRd * ID/EX.RegisterRs)) 
and (MEM/WB.RegisterRd = ID/EX.RegisterRs)) ForwardA = 01 


if (MEM/WB.RegWrite 
and (MEM/WB.RegisterRd * 0) 
and not(EX/MEM.RegWrite and (EX/MEM.RegisterRd =# 0) 
and (EX/MEM.RegisterRd * ID/EX.RegisterRt)) 
and (MEM/WB.RegisterRd = ID/EX.RegisterRt)) ForwardB = 01 


图 4-56 给 出 了 为 了 支持 旁 路 EX 级 结果 所 增加 的 必要 硬件 设备 。 注 意 ,图 中 EX/MEM. 
RegisterRd 字段 是 一 条 ALU 指令 (来自 Rd 字段 ) 或 装载 指令 (来自 Rt 字段 ) 的 目标 寄存 器 。 

4. 13 节 给 出 了 两 段 MIPS 代码 ， 其 中 存在 需要 使 用 旁 路 解决 的 冒险 ， 你 可 以 使 用 单 时钟 周 
期 流水 线 图 对 这 些 例子 进行 深入 分 析 。 


图 | 精 解 旁 路 还 可 以 帮助 解决 因 存 储 指令 依赖 其 他 指令 而 导致 的 冒险 。 由 于 存储 指令 在 
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MEM 级 只 使 用 一 个 数据 ， 所 以 旁 路 应 当 容易 。 但 在 MIPS 架构 中 ， 由 于 存储 器 之 间 的 复制 
很 频繁 ， 必 须 考虑 复制 时 存储 指令 后 紧 跟 着 的 是 装载 指令 的 情况 。 为 了 提高 复制 的 速度 ， 
我 们 需要 加 入 更 多 的 旁 路 硬件 。 如 果 我 们 重 画 图 4-53， 并 分 别 使 用 lw 和 sw 指令 代替 
sub 和 AND 指令 ， 我 们 将 发 现 这 时 也 可 能 避免 一 次 阻塞 ， 只 要 装载 指令 的 MEMZWB 寄存 


器 中 存在 的 数据 能 够 及 时 地 提供 给 
要 在 存储 器 访问 阶段 加 入 旁 路 。 我 


存储 指令 在 MEM 级 使 用 。 为 了 实现 这 个 功能 ， 我 们 需 
们 将 如 何 对 其 修改 作为 练习 留 给 读者 。 


此 外 ， 图 4-56 中 省 略 了 装载 指令 和 存储 指令 所 需 的 输入 到 ALU 的 带 符 号 立即 数 。 由 


于 中 央 控 制 决 定 如 何在 寄存 器 和 立 


即 数 之 间 进行 选择 ， 而 且 旁 路 单元 选择 流水 线 寄存 器 作 


为 ALU 的 一 个 寄存 器 输入 ， 因 此 最 简单 的 解决 方法 就 是 加 入 一 个 2:1 的 多 选 器 ， 由 它 在 


ForwardB 多 选 器 的 输出 和 带 符号 立 


控制 


IF/ID 


指令 
存储 器 





IF/ID.RegisterRs 
| | [iFAD.RegisterRt | 

| | IF/ID.RegisterRt | 

[| | | ripRegistergd ,| 


图 4-56 ”通过 旁 路 解决 冒险 的 数据 通路 。 与 图 


即 数 之 间 进 行 选择 。 图 4-57 描述 了 这 种 变化 。 


ID/EX 


Ma EX/MEM 
Mn | MEMWB 
EX M WB 












则 0 8 
' 
ti 
| 


4-51 的 数据 通路 相 比 ， 本 图 在 ALU 的 输入 部 分 加 入 了 多 选 器 。 


为 了 使 表述 更 加 清楚 ， 图 中 忽略 了 完整 数据 通路 中 的 一 些 细节 ， 如 分 支 硬件 和 符号 扩展 硬件 等 





图 4-57 在 图 4-54 中 的 数据 通路 加 入 了 一 个 2: 1 的 多 选 器 ， 用 以 选择 带 符号 立即 数 作为 ALU 的 输入 
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数据 冒险 与 阻塞 


吉 果 你 第 一 次 没有 成 功 ， 那 就 重新 定义 成 功 是 什么 。 
一 一 佚名 


如 4.5 节 所 述 ， 当 一 条 指令 试图 读 取 一 个 由 前 一 条 装载 指令 读 人 的 寄存 器 时 ， 就 无 法 使 用 

旁 路 解决 冒险 了 。 图 4-58 说 明了 这 个 问题 。 当 ALU 正在 执行 后 续 指 令 的 操作 时 ， 数 据 仍 然 是 

在 第 4 个 时 钟 周期 从 内 存 中 读 出 的 。 所 以 ， 当 装载 指令 后 紧 跟 着 一 个 需要 读 取 它 的 结果 的 指令 
时 ， 必 须 采 用 相应 的 机 制 阻塞 流水 线 。 

时 间 〈 以 时 钟 周期 计 ) 

程序 执行 顺序 Gl Ey a 4 C5 6% TT7 i 669 

〈 按 指令 序 ) 








and $4,$2, $5 


or $8, $2, $6 





add $9, $4, $2 


和 > | B31 
= | 
slt $1, $6, $7 外 . ; 十 区。 


图 4-58 一 个 指令 序列 的 流水 线 图 。 由 于 装载 指令 和 紧 随 其 后 的 and 指令 之 间 的 相关 性 在 时 间 上 是 回溯 
的 ， 这 种 冒险 不 可 能 通过 旁 路 来 解决 。 因 此 ， 这 类 指令 组 合 导致 冒险 检测 单元 产生 阻塞 


因此 ， 除 了 一 个 旁 路 单元 以 外 ， 还 需要 一 个 冒险 检测 单元 。 它 工作 在 了 级 ， 从 而 可 以 在 
装载 指令 与 紧 随 其 后 需要 它 的 结果 的 指令 间 插 入 阻塞 。 这 个 冒险 检测 单元 检测 装载 指令 ， 它 的 
控制 满足 如 下 条 件 : 

if (ID/EX.MemRead and 

((ID/EX.RegisterRt = IF/ID.RegisterRs) or 


(ID/EX.RegisterRt = IF/ID.RegisterRt))) 
stall the pipeline 


因为 读 取 数据 存储 器 的 指令 一 定 是 装载 指令 ， 所 以 第 一 行 条 件 检查 指令 是 否 是 一 条 装载 指 
令 。 后 面 的 两 行 是 检测 在 EX 级 的 装载 指令 的 目的 寄存 器 是 否 与 在 级 的 指令 的 某 一 个 源 寄存 右 
相 匹 配 。 如 果 条 件 成 立 ， 指 令 将 阻塞 一 个 时 钟 周期 。 经 过 这 一 个 周期 的 阻塞 旁 路 逻辑 就 可 以 处 
理 相关 性 并 继续 执行 程序 了 (如果 没有 采用 旁 路 ， 那么 图 4-58 中 的 指令 还 需要 阻塞 一 个 周期 ) 。 

如 果 处 于 ID 级 的 指令 被 阻塞 ,那么 处 于 下 级 的 指令 也 必须 被 阻塞 ,否则 ,已 经 取 到 的 指 
令 就 会 丢失 。 防 止 这 两 条 指令 继续 执行 的 方法 是 保持 PC 寄存 器 和 If/ID 流水 线 寄存 器 不 变 。 
如 果 这 些 寄存 器 内 容 保持 不 变 , 在 正 级 的 指令 将 继续 使 用 相同 的 PC 取 指 令 ， 而 在 D 级 将 继 
续 使 用 下 /ID 流水 线 寄 存 器 中 的 相同 的 指令 字段 读 寄 存 器 堆 。 再 回 到 我 们 熟悉 的 洗衣 店 的 例子 
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中 ， 这 一 过 程 就 好 像 是 你 重新 打开 洗衣 机 洗 相同 的 衣服 而 让 烘 干 机 继续 空转 一 样 。 当 然 ， 就 像 
烘 干 机 一 样 ， 从 EX 开始 的 流水 线 后 半 部 分 必须 “空转 ”"， 它 们 执行 的 指令 必须 不 产生 任何 效 
果 ， 即 空 指令 (nop)。 


全 空 指令 : 一 种 不 进行 任何 操作 或 不 改变 任何 状态 的 指令 。 


那 我 们 怎么 在 流水 线 中 插 人 空 指令 〈 就 像 气泡 一 样 ) 呢 ? 从 图 4-49 中 我 们 知道 ， 在 EX、 
MEM 和 WB 级 如 果 将 所 有 9 个 控制 信号 都 清除 ( 置 为 0) ， 就 会 产生 一 个 “什么 都 不 做 ”的 指 
令 ， 即 空 指令 。 通 过 识别 人 D 级 的 冒险 ， 可 以 在 流水 线 中 插入 一 个 气泡 ， 方 法 是 把 ID/EX 流水 线 
寄存 器 的 EX、MEM 和 WB 级 的 控制 信号 都 置 为 0。 这 些 控制 信号 在 每 个 时 钟 周期 都 向 前 传递 ， 
但 不 会 产生 不 良 后 果 ， 因 为 如 果 控 制 信号 都 是 0， 那 么 所 有 寄存 器 和 存储 器 都 不 进行 写 操作 。 

图 4-59 描述 了 该 指令 序列 的 运行 过 程 : 与 AND 指令 相关 的 流水 线 执行 槽 被 插 人 一 条 空 指 
令 ， 这样 从 AND 开始 的 所 有 指令 都 被 延迟 一 个 时 钟 周期 。 就 像 水 管 中 的 气泡 ， 一 个 阻塞 的 气 
泡 会 延缓 后 面 所 有 指令 的 执行 ， 同 时 在 每 个 时 钟 周 期 ， 气 泡 也 沿 着 流水 线 向 后 推进 一 级 ， 直 到 
它 退出 流水 线 为 止 。 在 这 个 例子 中 ， 冒 险 强迫 指令 AND 和 OR 在 第 4 个 时 钟 周期 重复 第 3 个 时 
钟 周期 所 做 的 内 容 ， 即 指令 AND 读 存储 器 并 进行 译 码 ， 指 令 OR 从 指令 存储 器 中 取 指令 。 这 种 
重复 的 工作 就 像 阻塞 一 样 ， 但 它 的 效果 是 拉 伸 了 指令 AND 和 OR， 并 且 延 迟 了 第 二 个 add 指令 
的 取 数 操作 。 


时 间 以 时 钟 周期 计 ) 
CC1 CC2 CC3 CC4 CCCs cc6 CC7 Cc8 CCc9 CC 10 
程序 执行 顺序 
( 按 指令 序 ) 


lw $2, 20($1) | 项 9 -也 








and becomes nop 


and $4, $2, $5 


or $8, $2, $6 


add $9,$4,$2 


图 4-59 ”在 流水 线 中 插入 阻塞 的 方法 。 在 第 4 个 时 钟 周期 中 ， 通 过 将 and 指令 变 成 nop 插入 了 一 个 气 
泡 。 注 意 ，and 指令 的 正和 了 D 级 在 第 2 个 和 第 3 个 时 钟 周期 ,但 它 的 EX 级 被 推迟 到 第 5 个 
时 钟 周期 (不 阻塞 的 话 应 该 在 第 4 个 时 钟 周期 ) 。 与 此 类 似 ，OR 指令 的 下 级 在 第 3 个 时 钟 周 
期 , 但 它 的 ID 级 被 推迟 到 第 5 个 时 钟 周期 (不 阻塞 的 话 应 该 在 第 4 个 时 钟 周期 )。 在 插入 气泡 
后 ， 所 有 的 相关 性 沿 时 间 前 进 ， 冒 险 不 再 发 生 


图 4-60 给 出 了 冒险 检测 单元 和 旁 路 单元 的 流水 线 连 接 。 和 前 面 的 介绍 一 样 ， 旁 路 单元 控制 
ALU 多 选 器 ， 从 而 可 以 用 相应 的 流水 线 寄存 器 的 值 代替 通用 寄存 器 的 值 。 冒 险 检测 单元 控制 PC 
和 IFVID 流水 线 寄存 器 的 写 人 ， 以 及 在 实际 控制 信号 与 全 0 中 进行 选择 的 多 选 器 。 如 果 上 面 的 取 
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指令 冒险 条 件 为 真 ， 冒 险 检测 单元 就 阻塞 并 清除 所 有 的 控制 字段 。 如 有 果 你 想 了 解 更 多 细 方 , 4. 13 
节 给 出 了 一 段 MIPS 代码 ， 其 中 含有 会 导致 阻塞 的 冒险 ， 并 附带 了 对 应 的 单 时 钟 周期 流水 线 图 。 





























冒险 ID/EX.MemRead 
检测 单元 一 
2 
三 
会 | ID/EX 
BS 浊 
外 | a | EXMEM 
_ 控制 一 -| 忆 - 汗 | Me 入 wy WB pre MEM/WEB 
2 | | 
关 IF/ID 0 Lipx | M WB 
让 | | 
M 
| > 
Xx 
寄存 器 | 上 fw 
| : 
le 数据 * 
存储 器 
xX 
IF/ID.RegisterRs 
IF/ID.RegisterRt | M 
IF/ID. RegisterRt | _ | llk 
IF/ID.RegisterRd (|| la | 
G3 








| 
el ID/EX.RegisterRt 
ER 
R 旁 路 单元 


图 4-60 流水 线 控制 概述 ， 其 中 包括 两 个 旁 路 多 选 器 、 一 个 冒险 检测 单元 和 一 个 旁 路 单元 虽然 简化 了 
ID 和 EX 级 (省略 了 经 过 符号 扩展 的 立即 数 和 分 支 逻 辑 ), 但 本 图 说 明了 旁 路 的 基本 硬件 
支持 

o 重点 ”尽管 编译 器 通常 依赖 于 硬件 解决 冒险 相关 性 以 保证 指令 正确 执行 ,但 为 了 获得 最 好 

的 效果 ， 编 译 器 的 设计 者 必须 了 解 流 水 线 。 否 则 ， 未 预料 到 的 阻塞 会 降低 编译 代码 的 执行 
效率 。 


留 | 精 解 ”前 面 提 到 为 了 避免 写 寄存 器 或 存储 器 而 将 所 有 的 控制 信号 都 置 为 0。 事 实 上 ， 只 需 
将 信号 RegWrite 和 MemWrite 置 为 0， 而 不 用 关心 其 他 控制 信号 。 


4.8 控制 冒险 


即使 对 孵 显 从 侧面 进行 上 三次 放 南 ， 也 比 和 不 上 从 根源 上 进行 一 次 攻 测 。 
—— Henry David Thoreau, 《 Walden) ,1854 


直到 现在 ,我 们 只 把 冒险 的 概念 局 限 在 算术 运算 和 数据 传输 中 。 但 正如 4.5 节 中 所 提 到 
的 那样 ， 还 有 一 类 包含 分 支 的 流水 线 冒 险 。 图 4-61 描述 了 一 个 指令 序列 ， 同 时 说 明了 在 流 
水 线 中 何 时 会 发 生 分 支 。 为 了 维持 流水 线 的 运行 ， 每 个 时 钟 周期 都 必须 取 指 ， 但 在 我 们 的 
设计 中 必须 等 到 MEM 级 才能 确定 是 否 执 行 分 支 。 如 4.5 节 所 述 ， 与 前 面 讨论 的 数据 冒险 相对 
应 ， 这 种 为 了 确保 预 取 正确 指令 而 导致 的 延迟 叫 作 控制 冒险 (control hazard) 或 分 支 冒 险 
(branch hazard ) 。 

因为 控制 冒险 相对 易于 理解 ， 它 们 出 现 的 频率 也 比 数据 冒险 要 小 得 多 ， 而 且 与 采用 旁 路 就 
能 有 效 地 解决 数据 冒险 相 比 ， 还 没有 有 效 的 方法 能 够 解决 控制 冒险 。 因 此 ， 这 一 节 关 于 控制 冒 
险 的 讨论 要 比 前 一 节 的 数据 冒险 短 得 多 。 本 节 将 介绍 两 种 解决 控制 冒险 的 方案 ， 并 进行 了 优化 。 
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时 间 〈 以 时 钟 周期 计 ) 
程序 执行 顺序 CC 1 CC2 CE3 CC4 CCE5 CC6 CC 了 CC8 CC9 


( 按 指令 序 ) 
40 beq $1, $3, 28 i 国 @ 


48 or $13, $6, $2 
52 add $14, $2, $2 


72 lw $4, 50($7) 





图 4-61 分 支 指令 对 流水 线 的 影响 。 指令 左边 的 数字 (40，44，…) 表示 指令 的 地 址 。 由 于 分 支 指令 
在 MEM 级 (beq 指令 对 应 于 时 钟 周期 4) 才能 决定 是 否 执行 分 支 ， 分 支 后 面 三 条 指令 都 将 被 
取 回 并 执行 。 如 果 不 加 干涉 ， 这 三 条 指令 将 在 beq 指令 跳 转 到 地 址 72 执行 1w 之 前 就 开始 执 
行 了 (图 4-31 通过 引入 额外 的 硬件 从 而 将 控制 冒险 减少 到 一 个 时 钟 周 期 ， 本 图 使 用 的 是 没有 
经 过 优化 的 数据 通路 ) 


4.8.1 假定 分 支 不 发 生 


如 4.5 节 所 述 ， 采 用 阻塞 直到 分 支 判断 完毕 来 处 理 控制 冒险 的 速度 实在 太 慢 。 一 种 比较 普 
遍 的 提高 速度 的 方法 是 假设 分 支 不 发 生 ， 并 继续 执行 顺序 的 指令 流 。 如 果 分 支 发 生 ， 就 丢弃 已 
经 读 取 并 译 码 的 指令 ， 并 按 分 支 目标 继续 执行 。 如 果 分 支 不 发 生 的 可 能 性 是 50% ， 同 时 丢弃 
指令 的 代价 很 小 ， 那 么 这 种 优化 方法 可 以 将 控制 冒险 的 代价 减 半 。 

为 了 丢弃 指令 ， 只 需要 将 最 初 的 控制 信号 置 为 0 即 可 ,这 一 点 与 阻塞 解决 装载 指令 的 数据 冒 
险 类 似 。 其 不 同 之 处 在 于 当 分 支 到 达 MEM 级 时 必须 分 别 改 变 在 下、ID 和 EX 级 的 三 条 指令 的 控 
制 信号 ， 而 对 于 装载 指令 的 阻塞 只 需要 将 ID 级 的 控制 信号 置 为 0， 并 将 其 从 流水 线 中 退出 即 可 。 
分 支 冒险 中 的 丢弃 指令 意味 着 必须 能 够 将 流水 线 的 下、ID 和 EX 级 的 指令 都 清除 (flush) 。 


”清除 : 因 发 生 了 意外 而 丢弃 流水 线 中 的 指令 。 
4. 8. 2 缩短 分 支 的 延迟 


一 种 提高 分 支 效率 的 方法 是 缩短 分 支 的 执行 时 间 。 直 到 现在 ， 我 们 都 假设 在 MEM 级 才能 
确定 分 支 结构 要 执行 的 下 一 条 指令 的 PC。 确 定 分 支 目 标 地 址 的 时 间 越 早 ， 需 要 清除 的 指令 就 
越 少 。MIPS 体系 结构 是 面向 支持 快速 的 单 周期 分 支 设计 的 。 设 计 者 注意 到 许多 分 支 仅仅 需要 
简单 的 判断 (如 相等 或 正 负 ) ， 这 些 简单 的 判断 并 不 需要 完整 的 ALU 操作 而 仅 使 用 简单 的 一 些 
逻辑 门 就 足够 了 。 如 果 分 支 条 件 更 复杂 ， 一 般 有 一 条 单独 的 指令 使 用 ALU 来 进行 比较 一 一 这 
种 情况 类 似 于 第 2 章 中 提 到 的 分 支 条 件 公 。 

为 了 将 分 支 决策 提前 ， 需 要 提前 两 个 动作 : 计算 分 支 目标 地 址 和 判断 分 支 条 件 。 分 支 目标 
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地 址 的 计算 是 比较 简单 的 。 我 们 在 /ID 流水 线 寄存 器 中 已 经 有 了 PC 的 值 和 立即 数字 段 ， 所 
以 只 需要 将 分 支 地 址 计算 从 EX 级 移 到 ID 级 就 可 以 了 。 当 然 ， 尽 管 分 支 目标 地 址 对 所 有 指令 都 
会 计算 ， 但 仅 在 需要 时 才 会 使 用 。 

判断 分 支 条 件 比 较 复 杂 。 为 了 判断 分 支 的 执行 条 件 ， 需 要 比较 从 ID 级 取 到 的 两 个 寄存 器 
的 值 是 否 相 等 。 判 断 相等 的 方法 可 以 是 先 将 对 应 的 位 进行 异 或 操作 ， 然 后 将 结果 按 位 进行 或 操 
作 。 为 了 把 分 支 条 件 判断 提前 到 了 级 ， 还 需要 额外 的 旁 路 和 冒险 检测 硬件 ， 因 为 分 支 条 件 的 
判断 可 能 依赖 于 还 在 流水 线 中 的 结果 。 例 如 ， 为 了 实现 相等 则 分 支 〈 或 不 等 则 分 支 ) ， 我 们 需 
要 旁 路 结果 至 ID 级 进行 相等 检测 。 这 里 有 两 个 比较 复杂 的 因素 : 

1) 在 了 D 级 指令 译 码 后 ,决定 是 否 需要 将 所 需 数据 旁 路 到 相等 检测 单元 进行 相等 检测 。 如 
果 是 分 支 指令 ， 就 可 以 把 PC 替换 为 分 支 目 标 地 址 。 劳 路 分 支 指令 的 操作 数 以 前 是 由 ALU 旁 路 
单元 来 完成 的 , 但 四 级 相等 检测 单元 的 引入 需要 一 个 新 的 旁 路 单元 。 必 须 注意 的 是 ， 需 要 旁 
路 的 分 支 指令 源 操作 数 可 能 来 自 ALUZMEM 或 MEMAWB 流水 线 寄 存 器 。 

2) 因为 ID 级 进行 分 支 比较 所 需 的 数据 可 能 在 后 面 才 能 产生 ， 因 此 有 可 能 会 发 生 数 据 冒 
险 ， 这 样 就 需要 阻塞 流水 线 。 例 如 ， 如 果 分 支 指令 前 刚好 是 一 条 ALU 指令 ， 而 这 条 ALU 指令 
的 结果 恰 是 分 支 指令 比较 所 需要 的 ， 那 么 必然 产生 阻塞 ， 因 为 ALU 指令 的 EX 级 将 在 分 支 指令 
的 加 级 后 发 生 。 再 举 一 个 例子 ， 如 果 分 支 指令 前 刚好 是 一 条 装载 指令 ， 而 装载 指令 的 结果 恰 
是 分 支 指令 判断 所 需要 的 ， 则 必须 产生 两 个 阻塞 ， 因 为 装载 指令 的 结果 将 在 装载 指令 的 MEM 
级 结束 时 产生 ， 但 在 分 支 指令 的 级 开始 时 就 会 用 到 。 

尽管 有 这 些 困 难 ， 将 分 支 执行 提前 到 ID 级 依然 是 值得 的 ， 因 为 它 将 分 支 预测 错误 的 代价 
减 小 到 只 有 一 条 指令 ， 就 是 分 支 执行 时 正在 取 的 那 条 指令 。 下 面 的 例题 对 旁 路 路 径 和 检测 冒险 
的 实现 细节 进行 了 讨论 。 

为 了 在 正 级 清除 指令 ， 我 们 加 入 了 一 条 称 为 下. Flush 的 控制 信和 号， 即将 下 AID 流水 线 寄存 
器 的 指令 字段 置 为 0。 清 空 寄存 器 的 结果 是 将 预 取 到 的 指令 转变 成 为 空 指令 ， 该 指令 不 作 任 何 
操作 ， 不 改变 机 器 状态 。 


车 ] 例题 ,流水线 分 支 

假定 流水 线 对 分 支 不 发 生 进 行 了 优化 ， 并 且 分 文 的 执行 提前 到 流水 线 的 了 D 级 。 试 说 明 下 
面 的 指令 序列 在 分 支 发 生 时 的 执行 情况 : 

36 sub $10, $4, $8 

40 beq $1, $3, 7 # PC-relative branch to 40+4+7*4=72 

44 and $12, $2, $5 

48 or $13, $2, $6 

52 add $14, $4, $2 

56 Silt $15, 上 $6, $7 


IS) 


72 lw $4, 50($7) 


邯 ] 答案 
图 4-62 描述 了 分 支 产生 时 指令 序列 的 执行 情况 。 与 图 4-61 不 同 ， 这 里 在 一 个 发 生 的 分 支 
上 只 有 一 个 流水 线 气泡 。 0 


4. 8. 3 动态 分 支 预测 


假设 分 支 不 发 生 是 一 种 粗略 的 分 支 预测 方法 。 在 这 种 情况 下 ,我 们 总 是 预测 分 支 不 发 生 ， 
如 果 预 测 错误 就 清空 流水 线 。 对 简单 的 五 级 流水 线 而 言 ， 这 种 方法 结合 基于 编译 器 的 预测 就 已 
经 足够 了 。 从 时 钟 周期 数 的 角度 来 说 ， 使 用 更 深 的 流水 线 时 分 支 代价 将 增加 。 类 似 地 ， 以 丢弃 
的 指令 数 来 计算 ， 对 多 发 射 〈 见 4. 10 节 ) 的 分 支 代价 也 将 增加 。 这 种 组 合意 味 着 在 一 个 高 性 





处 理 器 217 


IF.Flush and$12,$2,.55 1! beq $1, $3.7 ' sub $10, $4, S8 ] before<1> ! before<2> 











4-62 在 第 三 个 时 钟 周期 ID 级 确定 分 支 发 生 ， 因 此 地 址 72 被 选 为 下 一 个 PC 地 址 ， 同 时 将 为 下 一 个 时 
钟 周期 预 取 的 指令 置 为 0。 时 钟 周期 4 的 图 描述 了 地 址 为 72 的 指令 被 取 回 ， 并 且 分 支 发 生 的 后 
果 是 在 流水 线 中 产生 了 一 个 气泡 或 者 一 条 空 指令 (由 于 空 指令 实际 上 是 s11 $0, $0 ,0 ， 所 以 时 
钟 周期 4 的 ID 级 是 否 应 该 标 出 还 有 待 商 椎 ) 

能 的 流水 线 设计 中 ， 简 单 的 静态 预测 机 制 将 可 能 浪费 大 量 的 性 能 。 如 4. 5 节 所 述 ， 如 果 有 更 多 

的 硬件 支持 ， 我 们 就 可 能 实现 一 些 其 他 的 分 支 预测 方法 。 

一 种 策略 是 通过 查找 指令 的 地 址 观察 上 一 次 执行 该 指令 时 分 支 是 否 发 生 ， 如 果 上 次 执行 时 
分 支 发 生 ， 就 从 上 次 分 支 发 生 的 地 方 开始 取 新 的 指令 。 这 种 技术 称 为 动态 分 支 预测 〈dynamic 
branch prediction ) 。 

这 种 策略 的 一 种 实现 方法 就 是 采用 分 支 预测 缓存 (branch prediction buffer) 或 分 支 历 史记 
录 表 (branch history table) 。 分 支 预测 缓存 是 一 小 块 按照 分 支 指令 的 地 址 低位 索引 的 存储 器 区 ， 
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其 中 包括 一 位 或 多 位 数据 用 以 说 明 最 近 是 否 发 生 过 分 支 。 


动态 分 支 预测 : 根据 运行 信息 在 运行 中 进行 分 支 预测 。 
分 支 预测 缓存 :; 也 称 为 分 支 历史 记录 表 。 一 小 块 按照 分 支 指令 的 低位 地 址 索引 的 存储 器 
区 ， 其 中 包括 一 位 或 多 位 数据 用 以 说 明 最 近 是 否 发 生 过 分 支 。 


3 0 


这 是 最 简单 的 一 类 缓存 ， 我 们 实际 上 并 不 知道 预测 是 否 正确 ， 而 且 它 还 可 能 由 其 他 具有 相 
同 地 址 低位 的 分 支 设置 ， 但 这 并 不 影响 这 种 方法 的 准确 率 。 预 测 只 是 对 正确 分 支 方 向 的 一 种 假 
设 ， 在 这 个 基础 上 ， 沿 着 预测 的 方向 进行 取 指 。 如 果 这 种 假设 错误 ， 预 测 错 误 的 指令 将 被 删 
除 ， 预 测 位 将 取 反 ， 并 返回 原来 的 位 置 ， 继 续 按 照 正确 的 方向 取 指 并 执行 。 

使 用 一 位 预测 位 的 简单 预测 方法 具有 性 能 上 的 缺陷 : 即使 一 个 分 支 几乎 总 是 发 生 ， 但 它 一 
旦 未 发 生 就 将 导致 两 次 (而 不 是 一 次 ) 预测 错误 。 下 面 的 例子 说 明了 这 种 情况 。 


臣 ) 例题 . 循环 与 预测 

我 们 来 看 一 个 循环 分 支 ， 它 在 一 行 代码 上 的 分 支 发 生 了 9 次 ， 而 不 是 发 生 了 一 次 。 假 设 分 
支 的 预测 位 保存 在 预测 缓存 中 ， 这 种 分 支 预 测 的 正确 率 是 多 少 ? 
邯 ) 答案 

静态 预测 方法 会 在 第 一 次 和 最 后 一 次 的 循环 迭代 时 预测 错误 。 由 于 分 支 在 一 行 上 发 生 了 9 
次 ， 因 此 预测 位 在 最 后 一 次 循环 时 被 设 为 分 支 发 生 ， 而 且 这 次 预测 错误 是 不 可 避免 的 。 而 在 第 
一 次 迄 代 时 发 生 预 测 错误 是 因为 预测 位 在 循环 的 上 一 次 迭代 时 被 前 一 个 执行 设置 为 不 执行 (在 
那 次 退出 的 迭代 中 分 支 并 没有 发 生 ) 。 因 此 这 个 预测 方法 在 分 支 发 生 90% 的 情况 下 预测 的 正确 
性 只 有 80% (两 次 错误 预测 ，8 次 正确 预测 ) 。 O 


在 理想 的 情况 下 ， 在 这 种 高 度 规律 的 分 支 结构 中 预测 的 正确 性 与 发 生 分 支 的 频率 相 匹 配 。 
为 了 弥补 这 一 缺陷 ， 经 常 使 用 两 位 预测 位 的 方案 。 在 一 个 两 位 预测 位 的 方案 中 ， 再 次 发 生 预 测 
错误 时 才 改 变 预测 。 图 4-63 给 出 了 两 位 预测 位 的 有 限 状态 机 。 

分 支 预测 缓存 可 以 使 用 在 正 级 指令 地 址 能 够 访问 的 小 容量 专用 缓存 实现 。 如 果 指 令 预测 
分 支 发 生 ， 那 么 一 旦 获得 新 的 PC 就 从 该 目标 地 址 开始 取 指 (如 4.8.3 节 所 述 , 在 级 就 可 以 
获得 PC) ， 否 则 就 顺序 取 指 并 继续 执行 。 如 果 预 测 的 结果 是 错误 的 ， 就 按照 图 4-63 说 明 的 方 
法 改变 预测 位 。 


图 4-63 两 位 预测 位 机 制 的 状态 图 。 通 过 
使 用 两 位 (不 是 一 位 ) 预测 位 ， 
ga 在 分 支 经 常 发 生 或 经 常 不 发 生 的 
情况 下 (大 多 数 分 支 都 是 这 样 ) 
预测 分 支 发 生 ) 只 会 发 生 一 次 预测 错误 。 两 位 数 
> 据 在 系统 中 可 以 表示 4 种 状态 。 
这 种 两 位 方案 是 基于 计数 器 预测 
方法 的 一 个 应 用 。 基 于 计数 器 的 
预测 方法 是 当 预 测 成 功 时 计数 器 
加 1， 预测 失败 时 计数 器 碱 1， 然 
后 使 用 计数 器 表示 范围 的 中 点 作 
为 分 支 与 不 分 支 的 分 界 点 






团 | 精 解 如 4.5 节 所 述 ， 在 五 级 流水 线 中 ， 通 过 重新 定义 分 支 ， 我 们 可 以 将 控制 冒险 转化 为 一 种 
可 用 的 特性 。 延 迟 分 支 可 执行 下 一 条 指令 ， 但 分 支 指令 后 的 第 二 条 指令 仍 将 受到 分 支 的 影响 。 
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编译 器 和 汇编 器 都 会 试图 把 总 在 分 支 后 执行 的 那 条 指令 放 入 分 支 延 迟 时 间 槽 (branch 
delay slot) 。 这 些 软件 的 作用 就 是 使 后 续 的 指令 有 效 并 且 有 用 。 图 4-64 给 出 了 三 种 调度 分 
支 延迟 时 间 构 的 方法 。 

延迟 分 支 调 度 的 限制 在 于 : 对 能 够 被 调度 到 分 支 延迟 时 间 梭 中 的 指令 的 限制 ; 在 编译 
时 对 分 支 发 生 与 否 的 预测 能 力 。 

对 每 个 时 钟 周 期 发 射 一 条 指令 的 五 级 流水 线 处 理 器 而 言 ， 延 迟 分 支 是 一 种 简单 有 效 的 方 
法 。 随 着 处 理 器 向 更 深 流水 线 以 及 单 周 期 多 指令 的 方向 发 展 ( 见 4.10 节 )， 分 支 延迟 变 得 更 
长 ， 单 延迟 时 间 片 实际 上 并 没有 多 大 作用 。 所 以 ， 与 开销 大 但 更 灵活 的 动态 预测 方法 相 比 ， 
延迟 分 支 技术 已 经 失去 了 吸引 力 。 同 时 ， 根 据 摩 尔 定律 使 动态 预测 的 成 本 相对 更 低 。 


分 支 延 迟 时 间 模 : 紧 趴 延迟 分 支 指令 的 时 间 片 。 在 MIPS 体系 结构 中 ， 用 不 影响 分 支 的 一 
条 指令 填充 到 该 时 间 片 中 。 


add Ss1, $s2, Ss3 
if $s2 = 0 then 


sub St4, St5, St6 add Ss1, $s2, $s3 
if $sl =0then 


add Ss1, $s2, $s3 


if $sl =0 then 


re sub $14, St5. $t6 


add Ssl, $s2, $s3 


ifSsl = 0 then 
add Ss1, $s2, $s3 Ee 
才 >t > 
ifSs1 =0 then 


sub St4, $15, St6 
a) 从 前 面 调度 b) 从 目标 处 调度 c) 从 不 发 生 转移 处 调度 


if $s2 =0then 


add ssl, Ss2, S53 





图 4-64 分 支 延迟 时 间 模 的 调度 。 每 一 对 方 框 中 的 上 面 一 个 表示 调度 前 的 代码 ， 下 面 一 个 表示 调度 后 的 代 


码 。 在 方案 a 中 ， 延 迟 时 间 片 通过 插入 分 支 之 前 的 一 条 与 分 支 无 关 的 指令 实现 ， 这 是 一 种 最 佳 的 
选择 。 当 方案 a 无 法 实现 时 ， 就 使 用 方案 b 和 方案 c。 在 方案 b 和 方案 e 的 代码 序列 中 ,分 支 条 件 
中 使 用 了 $1 ， 因 而 不 能 将 adad 指令 ( 它 的 目的 寄存 器 是 $1) 移 人 分 支 延迟 时 间 槽 。 方 案 b 中 的 
分 支 延迟 时 间 槽 是 按照 分 支 目 标 地址 调度 的 。 由 于 目标 指令 可 以 通过 其 他 路 径 访问 到 ， 通 常 需要 
将 它们 进行 复制 。 当 分 支 发 生 的 可 能 性 比较 大 时 ， 一 般 选 择 方案 b， 如 循环 分 支 。 最 后 ， 也 可 能 采 
用 方案 e 预测 分 支 不 发 生 的 下 一 条 指令 进行 调度 。 为 了 使 方案 b 和 方案 e 中 的 优化 合法 ，sub 指令 必 
须 在 分 支 预测 错误 时 也 能 “正常 ”执行 。“ 正 常 ”意味 着 虽然 有 些 工 作 是 多 余 的 ， 但 程序 依然 能 够 正 
确 执行 。 例 如 ， 当 分 支 预测 错误 上 且 $t4 是 未 被 使 用 的 临时 寄存 器 时 ， 就 是 这 种 情况 


著 | 精 解 ”分支 预测 器 告诉 我 们 分 支 是 否 会 发 生 ， 但 我 们 依然 需要 计算 分 支 目标 地 址 。 在 五 级 


流水 线 中 ， 计 算 分 支 目标 地 址 需要 一 个 时 钟 周 期 ， 即 分 支 发 生 将 需要 一 个 时 钟 周 期 的 开 
销 。 延 迟 分 支 是 消除 这 个 开销 的 一 种 方法 。 另 一 种 方法 是 使 用 分 支 目标 缓存 (branch tar- 
get buffer) 保存 分 支 目 标 地 址 或 分 支 目 标 指 令 。 

两 位 的 动态 预测 机 制 仅 使 用 某 个 特定 分 支 的 信息 。 研 究 人 员 发 现 ， 在 使 用 相同 数量 的 
预测 位 的 情况 下 ， 同 时 使 用 局 部 分 支 和 最 近 执行 分 支 的 全 局 行为 信息 ， 能 够 产生 更 高 的 预 
测 精度 。 这 种 预测 器 称 为 相关 预测 器 (correlating predictor) 。 一 个 典型 的 相关 预测 器 为 每 
个 分 支 提 供 两 个 两 位 的 预测 器 ， 其 选择 依据 是 上 次 分 支 执行 的 结果 (分 支 发 生 与 否 ) 。 这 
样 ， 全 局 分 支行 为 可 以 被 看 成 是 在 预测 查找 表 中 加 入 额外 的 索引 位 。 

最 新 的 分 支 预 测 方法 是 竞争 预测 器 。 竞 争 预测 器 (tournament branch predictor) 对 每 
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个 分 支 使 用 多 个 预测 器 ， 并 记录 哪个 预测 器 的 预测 结果 最 好 。 目 前 竞争 预测 器 的 预测 是 最 
准确 的 。 典 型 的 竞争 预测 器 对 每 个 分 支 地 址 有 两 个 预测 : 一 个 基于 局 部 信息 ， 一 个 基于 全 
局 分 支行 为 。 有 一 个 选择 器 用 于 选择 哪个 预测 器 的 预测 结果 ， 其 操作 类 似 于 一 位 或 两 位 的 
预测 器 ， 而 两 位 预测 器 的 精度 更 高 。 一 些 最 新 的 微 处 理 器 使 用 了 这 种 预测 器 。 


分 支 目标 缓存 : 一 种 用 于 缓存 分 支 目 标 地 址 或 分 支 目 标 指令 的 结构 ， 其 一 般 形式 为 带 标 志 
位 的 cache， 因 而 其 硬件 开销 大 于 简单 的 分 支 预测 缓存 器 。 

相关 预测 器 : 综合 考虑 特定 分 支 的 局 部 行为 和 最 近 执行 分 支 的 全 局 行为 的 分 支 预测 器 。 
竞争 预测 器 : 具有 多 种 预测 机 制 的 分 支 预测 器 ， 其 带 有 一 个 选择 器 ， 对 给 定 分 支 可 选择 其 
中 一 个 作为 预测 结果 。 


团 精 解 ”一 种 减少 条 件 分 支 数量 的 方法 是 加 入 条 件 移 动 指令 (conditional move instruction ) 。 


不 同 于 条 件 分 支 指令 改变 PC 值 ， 条 件 移动 指令 将 根据 条 件 改 变 移动 的 目的 寄存 器 。 如 果 
条 件 不 成 立 ， 条 件 移动 指令 就 相当 于 一 条 nop 指令 。 例 如 ， 某 版 本 的 MIPS 体系 结构 指令 
集 包 含 movn (move if not zero) 和 movz (move if zero) 两 条 指令 。 例 如 ，movn $8， 
$11,， $4， 如 果 寄 存 器 $4 的 值 为 非 零 ， 该 指令 复制 寄存 器 $11 的 内 容 至 寄存 器 $8; 否 
则 ， 该 指令 什么 也 不 做 。 

ARMV7 指令 集 在 绝 大 多 数 指令 中 都 有 条 件 字 段 。 因 此 ，ARM 程序 一 般 比 MIPS 程序 的 条 件 
分 支 要 少 一 些 。 


4.8.4 流水 线 小 结 


我 们 从 洗衣 店 的 例子 开始 ， 介 绍 了 日 常生 活 中 的 流水 线 原 理 。 用 这 个 例子 类 比 ， 逐 步 解 释 


了 指令 的 流水 化 ， 即 在 单 周期 数据 通路 的 基础 上 逐步 增加 流水 线 寄 存 器 、 旁 路 路 径 、 数 据 冒 险 
检测 、 分 支 预测 和 异常 时 指令 的 清除 。 图 4-65 给 出 了 最 终 的 数据 通路 及 控制 。 现 在 我 们 已 经 


准备 好 处 理 男 一 种 控制 冒险 : 异常 。 








图 4-65 本章 最 终 的 数据 通路 与 控制 。 注 意 ， 这 是 一 个 概略 图 ， 没 有 履 盖 到 数据 通路 的 所 有 细节 ， 如 图 


4-57 中 的 ALUsre 多 选 器 和 图 4-51 中 的 多 选 器 控制 都 没有 标识 出 来 








暂 ， 小 测验 

考虑 三 种 分 支 预测 机 制 : 预测 分 支 不 发 生 、 预 测 分 支 发 生 和 动态 分 支 预测 。 假 定 它 们 在 预 
测 正确 时 无 开销 ， 预 测 错误 时 开销 为 两 个 时 钟 周期 ， 动 态 预 测 器 的 平均 准确 率 为 90% 。 在 此 
情况 下 ， 对 下 面 的 分 支 而 言 哪 种 预测 器 是 最 好 的 选择 ? 

1. 分 支 发 生 概率 为 5% - 

2. 分 支 发 生 概 率 为 95% 。 

3. 分 支 发 生 概率 为 70% - 


4.9 异常 


使 一 各 计算 机 县 有 自动 程序 中 新 能 力 并 闫 一 件 简单 的 事 ， 因 为 中 断 发 生 时 处 于 不 
同 执 行 阶段 的 指 今 数 量 可 能 非常 多 - 
Fred Brooks, Jr., 《Planning a Computer System: Project Stretch), 1962 


控制 是 处 理 器 设计 中 最 具 挑 战 性 的 一 个 方面 : 它 最 难 达到 正确 ， 也 最 难 提 高 速度 。 控 制 中 
最 难 的 部 分 之 一 是 实现 异常 (exception) 和 中 断 (interrupt) 一 一 除 分 支 以 外 改变 正常 指令 执 
行 顺序 的 事件 。 异 常 和 中 断 最 初 是 用 来 处 理 来 自 处 理 器 内 部 的 意外 事件 ， 如 算术 溢出 。 在 第 5 
章 中 我 们 将 看 到 ， 它 们 也 可 用 于 LO 部 件 与 处 理 器 的 通信 。 


异常 : 也 称 为 中 断 ， 指 打 断 程序 正常 执行 的 突 发 事件 ， 用 于 检测 溢出 等 。 
中 断 : 来 自 处 理 器 外 部 的 异常 - ( 某 些 体系 结构 也 用 “中 断 ” 一 词 表示 所 有 的 异常 。) 
许多 体系 结构 和 作者 不 区 分 中 断 和 异常 ， 统 称 为 中 断 ， 如 Intel x86。 我们 遵循 MIPS 的 习 


惯 ， 术 语 异常 指控 制 流 中 任何 意外 的 改变 ， 而 无 论 其 产生 原因 是 来 自 处 理 器 内 部 还 是 外 部 ， 术 
语 中 断 指 由 外 部 引起 的 事件 。 下面 5 个 例子 说 明了 在 处 理 器 内 部 或 外 部 的 事件 情况 。 
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事件 类 型 
VO 设备 请 求 | 外 部 
用 户 程序 进行 操作 系统 调用 | 内 部 
算术 溢出 | 内 部 
使 用 未 定义 的 指令 | 内 部 异常 








硬件 故障 内 部 或 外 部 


导致 异常 发 生 的 不 同情 况 对 异常 处 理 的 支持 提出 了 诸多 要 求 。 在 第 5 章 中 我 们 将 再 次 讨论 
这 个 话题 ， 从 而 更 加 清楚 地 理解 这 一 问题 。 本 节 讨 论 两 种 异常 的 检测 机 制 ， 这 两 种 异常 由 我 们 
讨论 过 的 指令 集 及 其 实现 方式 产生 - 

检测 异常 情况 并 采取 适当 举措 ， 通 常 处 于 处 理 器 的 关键 路 径 上 。 该 路 径 决 定 了 时 钟 周期 的 
长 度 以 及 处 理 器 性 能 。 如 果 在 控制 单元 的 设计 中 没有 充分 考虑 异常 ,那么 在 复杂 实现 中 加 入 异 
常 支持 会 明显 降低 性 能 ， 并 使 正确 的 设计 更 加 复杂 。 


4.9.1 MIPS 体系 结构 中 的 异常 处 理 


目前 的 实现 中 可 能 产生 的 两 种 异常 是 未 定义 指令 的 执行 和 算术 溢出 。 在 接 下 来 的 部 分 ,我 
们 将 使 用 add $1, $2, $1 指令 作为 算术 溢出 类 型 异常 的 例子 。 异 常 发 生 时 处 理 器 必须 进行 的 
基本 操作 是 : 在 异常 程序 计数 器 (Exception Program Counter，EPC) 中 保存 出 错 指令 的 地 址 ， 
并 把 控制 权 转 交 给 操作 系统 的 特定 地 址 。 3 
操作 系统 可 采取 适当 的 行动 ， 如 给 用 户 程序 提供 一 些 服务 ， 对 溢出 情况 进行 事先 定义 的 操 ”|326 
作 ， 或 者 终止 程序 的 执行 并 报告 错误 。 在 完成 处 理 异常 所 需 动作 后 ， 操 作 系 统 可 以 终止 程序 ， 
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也 可 以 继续 执行 程序 ， 此 时 由 EPC 决定 重新 开始 执行 的 地 方 。 在 第 5 章 将 更 详细 地 讨论 重新 开 
始 执行 的 问题 。 

为 了 处 理 异常 ， 操 作 系 统 除 了 要 知道 是 哪 条 指令 引起 异常 之 外 ， 还 必须 知道 引起 异常 的 原 
因 。 主 要 有 两 种 方法 用 于 表示 产生 异常 的 原因 。MIPS 使 用 的 方法 是 设置 一 个 状态 寄存 器 ( 称 
为 Cause 寄存 器 ) ， 其 中 有 一 个 字段 用 于 记录 异常 产生 的 原因 。? 

另 一 种 方法 是 使 用 向 量 中 断 (vectored interrupt) 。 在 向 量 中 断 中 ， 控 制 权 被 转移 到 由 异常 
原因 决定 的 地 址 处 。? 例 如 ， 为 处 理 前 面 的 两 种 异常 ， 可 定义 如 下 的 两 个 异常 向 量 地 址 : 


纺 ”向 量 中 断 :; 由 异常 原因 决定 中 断 控制 转移 地 址 的 中 断 。 











异常 类 型 、 “异常 向 量 地 址 {十 六 进 制 ) 
未 定义 指令 8000 000016 
算术 溢出 8000 018016 





操作 系统 根据 引起 异常 的 地 址 得 知 导致 异常 的 原因 。 地 址 由 32 字 节 或 8 条 指令 进行 区 分 ， 
并 且 操 作 系 统 必须 记录 异常 的 原因 ， 并 依 此 顺序 执行 一 些 有 限 的 处 理 。 当 出 现 的 异常 不 属于 癌 
量 异 常 时 ， 单 个 入 口 点 供 所 有 异常 使 用 ， 并且 操作 系统 对 状态 寄存 器 进行 译 码 以 便 找到 原因 。 
通过 给 基本 的 实现 加 上 一 些 额 外 的 寄存 器 和 控制 信号 ， 并 将 控制 进行 一 些 扩展 ， 就 可 以 处 
理 异 常 。 假 定 我 们 实现 的 是 MIPS 体系 结构 的 异常 处 理 系统 ， 统 一 人 口 地 址 为 8000 0180,。( 事 
实 上 ， 实 现 向 量 异 常 也 不 难 ) ， 需 要 给 当前 的 MIPS 实现 加 上 两 个 寄存 器 : 
。 EPC: 32 位 寄存 器 ， 用 于 保存 发 生 异 常 的 指令 地 址 〈 向 量 中 断 也 需要 这 样 一 个 寄存 器 ) 。 
。 Cause: 记录 异常 原因 的 寄存 器 。 在 MIPS 体系 结构 中 它 是 32 位 的 ， 虽 然 其 中 一 些 位 现在 
还 没有 用 到 。 假 定 使 用 一 个 5 位 的 字段 对 前 面 两 种 异常 原因 进行 编码 : 未 定义 指令 = 10， 
算术 溢出 =12。 


4. 9.2 在 流水 线 实现 中 的 异常 


在 流水 线 实现 中 ,异常 可 被 视 作 男 一 种 形式 的 控制 冒险 。 例 如 ,假设 指令 add 产生 了 一 
个 算术 溢出 。 正 如 上 一 节 对 分 支 发 生 的 处 理 ， 我 们 必须 清除 流水 线 中 ada 指令 后 的 一 系列 指 
令 并 从 新 的 地 址 开始 取 指 。 我 们 将 使 用 与 之 相同 的 机 制 ， 不 过 这 次 是 由 异常 重 置 控制 信号 。 

在 处 理 分 支 预测 错误 时 ， 我 们 已 经 知道 如 何 通过 将 下 级 的 指令 转换 成 nop 指令 来 清除 指 
令 。 为 了 清除 蔬 级 的 指令 ,我 们 使 用 卫 级 已 有 的 多 选 器 ， 将 控制 信号 清 零 以 产生 阻塞 。 一 个 
称 为 了 D. Flush 的 新 控制 信号 与 冒险 检测 单元 的 阻塞 信号 相 或 ， 可 以 在 加 级 进行 清除 。 为 了 清 
除 EX 级 的 指令 ， 我 们 使 用 一 个 称 为 EX. Flush 的 新 信号 ， 用 它 控制 新 的 多 选 器 将 控制 信号 清 
零 。 为 了 从 地 址 8000 0180,。 (MIPS 异常 地 址 ) 开始 取 指 令 ， 只 要 简单 地 加 入 一 个 额外 的 输入 
到 PC 的 多 选 器 ， 由 它 将 8000 0180,e 传 递 到 PC。 图 4-66 具体 描述 了 这 种 变化 。 

这 个 例子 指出 了 异常 存在 的 一 个 问题 ， 即 如 果 不 在 指令 执行 期 间 中 止 指令 的 执行 ， 程 序 员 
将 无 法 看 到 导致 溢出 的 寄存 器 $1 中 的 原始 值 ， 因 为 它 将 作为 指令 aga 的 目标 寄存 器 被 冲 掉 。 
这 一 问题 可 以 通过 下 面 的 方法 解决 : 异常 溢出 在 EX 级 检测 出 来 ， 可 用 EX. Flush 信号 避免 EX 
级 的 指令 在 WB 级 写 回 结 果 。 许 多 异常 需要 我 们 能 够 最 终 正常 执行 引起 异常 的 指令 。 做 到 这 一 
点 最 简单 的 方法 是 先 清除 这 条 指令 ， 然 后 在 异常 处 理 完 后 再 重新 执行 这 条 指令 。 

异常 处 理 的 最 后 一 步 是 将 导致 异常 的 指令 的 地 址 保存 到 EPC 中 。 实 际 上 ， 我 们 保存 的 是 
原始 地 址 +4， 因 此 异常 处 理 例 程 必须 先 从 保存 的 地 址 中 减 去 4。 图 4-66 给 出 了 一 个 数据 通路 ， 
其 中 包括 分 支 硬件 以 及 为 处 理 异 常 所 进行 的 必要 调整 。 


加 ”所 有 蜡 常 使 用 同一 入口 地 址 ， 操 作 系统 根 据 状 态 寄存 器 确定 异常 原因 。 一 一 译 者 注 
加 ”操作 系统 通过 异常 向 量 地 址 得 知 异 常 原因 。 一 一 译 者 注 








IF.Flush 


‘1D.Flush 








图 4-66 ”处理 异 常 的 数据 通路 与 控制 。 主 要 增加 了 以 下 部 分 : 在 PC 多 选 器 中 增加 了 一 个 新 的 输入 8000 0180'。、 
一 个 记录 异常 发 生 原因 的 Cause 寄存 器 以 及 一 个 保存 导致 异常 的 指令 地 址 的 EPC 寄存 器 。8000 0180ie 是 
发 生 异常 时 开始 取 指 令 的 地 址 。 尽 管 图 中 没有 表示 出 ALU 溢出 信号 ,但 它 也 是 控制 单元 的 一 个 
输入 


邯 ) 例题 流水线 计算 机 中 的 异常 


给 出 以 下 指令 序列 ， 
40,。， Sub $11, $2, $4 


lIw $16, 50($7) 


假定 异常 处 理 程序 的 开始 部 分 如 下 : 
80000180, sw $26, 1000($0) 
80000184,, sw $27, 1004($0) 


给 出 ada 指令 发 生 溢出 异常 时 流水 线 的 情况 。 
轩 答案 
图 4-67 给 出 了 从 ada 指令 的 EX 级 开始 发 生 的 情况 。 溢 出 在 EX 级 被 检测 到 ，8000 0180, 被 强 


制 放 入 PC。 在 第 7 个 时 钟 周期 ，add 指令 及 其 后 面 的 指令 被 清除 ， 并 且 异 常 代码 的 第 一 条 指令 被 
取出 。 注 意 ,保存 的 地 址 是 adad 指令 下 一 条 指令 的 地 址 (4Cis +4 =5016)。 
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lw $16, 50($7) | slt $15, $6, $7 : add $1, $2, $1 | or $13,... ! and $12,... 


EX.Flush 1 
二 一 一 i 


IF.Flush 





sw $25, 1000($0) bubble (nop) : bubble ， bubble ‘Or $13,... 


IF.Flush 











4-67 add 指令 算术 溢出 导致 的 异常 。 溢 出 在 第 6 个 时 钟 周 期 的 EX 级 检测 到 ， 因 此 将 add 后 面 的 指令 

地 址 (4C +5 =5016) 保存 到 EPC 寄存 器 。 溢 出 导致 在 该 周期 后 面 所 有 的 Flush 信号 都 设置 为 1， 

并 置 adqd 的 控制 信号 为 无 效 ( 置 为 0) 。 时 钟 周期 7 显示 了 流水 线 中 转化 为 气泡 的 指令 和 取 异 

常 处 理 程序 的 第 一 条 指令 sw $25，1000 ( $0) (从 指令 地 址 8000 01801 处 取得 )。 需 要 注意 

的 是 ， 位 于 add 指令 前 的 AND 指令 和 OR 指令 仍然 会 执行 完毕 。 虽 然 图 中 没有 画 出 ALU 溢出 信 

330 号 , 但 它 也 是 控制 单元 的 一 个 输入 O 
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在 前 面 我 们 曾 提 到 5 个 异常 的 例子 ， 在 第 5 章 我 们 还 会 看 到 其 他 的 例子 。 任 何 时 钟 周期 流水 
线 中 都 有 5 条 活动 的 指令 ,问题 是 如 何 确定 到 底 是 哪 条 指令 引起 了 异常 。 而 且 ， 一 个 时 钟 周期 内 
还 可 能 发 生 多 个 异常 。 通 常 的 解决 方法 是 对 异常 划分 优先 级 ， 这 样 多 个 异常 同时 发 生 时 就 知道 先 
处 理 哪个 。 在 大 多 数 MIPS 实现 中 ,硬件 对 异常 进行 排序 从 而 使 得 最 先 发 生 异常 的 指令 被 中 断 。 

LO 设备 请 求 与 硬件 故障 并 不 与 特定 的 指令 相关 ， 因 此 它们 在 流水 线 中 断 时 机 的 实现 上 具 
有 一 定 的 灵活 性 。 因 此 ， 用 于 其 他 异常 的 机 制 在 这 里 也 可 以 很 好 地 工作 。 

EPC 捕捉 中 断 指令 的 地 址 ， 而 MIPS 的 Cause 寄存 器 在 一 个 时 钟 周期 内 记录 下 所 有 可 能 的 
异常 ， 因 此 异常 处 理 软件 判断 出 该 指令 发 生 了 何 种 异常 。 一 个 重要 的 判断 依据 是 某 一 类 异常 可 
能 在 哪 一 个 流水 线 阶 段 发 生 。 例 如 ， 未 定义 的 指令 异常 发 生 在 ID 级 ， 而 调用 操作 系统 异常 发 
生 在 EX 级。 如果 在 Cause 寄存 器 中 保存 有 多 个 异常 ， 当 优先 级 最 高 的 异常 处 理 之 后 ， 会 继续 
导致 硬件 中 断 ， 从 而 处 理 后面 的 异常 。 


四， 硬件 /软件 接口 ” 醒 件 与 操作 系统 必须 协同 工作 才能 按照 我 们 期 望 的 方式 处 理 异 常 。 硬 件 
一 般 暂 停 指令 流 中 导致 异常 的 指令 ， 同 时 执行 完 该 指令 前 的 所 有 指令 ， 清 除 该 指令 后 的 所 
有 指令 ， 并 且 设 置 一 个 寄存 器 描述 异常 发 生 的 原因 ， 保 存 导致 异常 发 生 的 指令 的 地 址 ， 然 
后 跳 转 到 预先 确定 的 地 址 开始 执行 。 操 作 系 统 则 查看 异常 发 生 的 原因 并 采取 相应 的 操作 。 
对 于 一 个 未 定义 指令 异常 、 硬 件 错误 异常 或 算术 溢出 异常 ， 操 作 系 统 通 常 终止 执行 的 程序 
并 返回 原因 描述 。 对 于 LO 设备 请 求 或 操作 系统 服务 调用 ， 操 作 系统 保存 程序 的 当前 状 
态 ， 执 行 期 望 的 任务 ， 然 后 重新 载 入 程序 继续 运行 。 在 LO 设备 请 求 的 情况 下 ， 我 们 可 能 
需要 在 继续 执行 发 出 LO 设备 请 求 的 任务 前 先 运行 另 一 个 任务 ， 因 为 该 任务 一 般 在 IO 完 
成 之 后 才能 继续 执行 。 这 就 是 保存 和 恢复 任务 状态 如 此 重要 的 原因 。 一 个 最 重要 且 频 繁 出 
现 的 异常 是 页 缺失 与 TLB 异常 。 第 5 章 描 述 了 更 多 关于 这 些 异常 及 其 处 理 的 细 贡 。 


o 虽 精 解 ”在 流水 线 计算 机 中 将 每 一 个 异常 与 导致 异常 的 相应 指令 对 应 起 来 的 难度 很 大 ， 因 此 
一 些 计 算 机 设计 者 在 一 些 非 关 键 情况 下 放松 了 这 种 要 求 ， 这 种 处 理 器 一 般 称 为 具有 非 精 确 
中 断 (imprecise interrupt) 或 者 非 精 确 异 常 (imprecise exception)。 在 上 面 的 例子 中 ， 尽 管 
导致 异常 的 指令 地 址 是 4Cis， 但 在 检测 到 异常 后 下 一 个 时 钟 周期 开始 时 PC 的 值 通 常 为 
58,。。 具 有 非 精 确 异 常 处 理 的 处 理 器 可 能 会 将 58,e 放 入 EPC 中 ， 而 让 操作 系统 确定 是 哪 一 
条 指令 导致 了 异常 。MIPS 以 及 当前 的 大 量 主流 处 理 器 都 提供 精确 中 断 (precise interrupt) 或 
精确 异常 (precise exception) (我 们 将 在 第 5 章 中 看 到 ， 原 因 之 一 是 为 了 支持 虚拟 存储 器 ) 。 


非 精确 中 断 : 也 称 为 非 精 确 异 常 。 流 水 线 计算 机 中 的 中 断 或 异常 不 与 导致 中 断 或 异常 的 指 
令 精 确 地 关联 。 

精确 中 断 : 也 称 为 精确 异常 。 流 水 线 计算 机 中 的 中 断 或 异常 与 导致 中 断 或 异常 的 指令 精确 
地 关联 。 


著 ) 精 解 尽管 MIPS 对 绝 大 多 数 异常 使 用 8000 0180,。 作 为 异常 入 口 地址 ， 但 为 了 提高 性 能 ， 
对 TLB 缺失 异常 使 用 8000 0000,。 作 为 异常 入 口 地 址 (参见 第 5 章 )。 


3 


0 


o 吕 小 测验 
在 下 面 的 指令 序列 中 会 首先 识别 哪个 异常 ? 
1，add $1, $2, $1 # 算 术 溢 出 
2. XXX $1, $2, $1 # 未 定义 指令 


3. sub $1, $2, $1 # 硬 件 错误 
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4. 10 ”指令 级 并 行 


首先 说 明 一 下 ， 本 节 是 对 一 些 高 级 主题 的 概述 。 如 果 你 希望 了 解 更 多 的 细节 ， 可 以 参考 另 
一 本 教材 : 《Computer Architecture: A Quantitative Approach》 第 5 版 。 本 节 大 约 13 页 的 内 容 在 
该 书 中 扩充 到 近 200 页 ( 含 附录 )。 

流水 线 挖掘 了 指令 间 潜 在 的 并 行 性 。 这 种 并 行 性 被 称 为 指令 级 并 行 (instruction-level paral- 
lelism，ILP)。 有 两 种 方法 可 以 增加 潜在 的 指令 级 并 行程 度 。 第 一 种 是 增加 流水 线 的 深度 以 重 
释 更 多 的 指令 。 还 是 用 洗衣 店 的 例子 来 说 明 ， 假 设 洗衣 机 周期 比 其 他 机 器 的 周期 要 长 ， 我 们 可 
以 把 洗衣 机 划分 成 三 个 机 器 ， 分 别 完 成 原 洗衣 机 洗 、 漂 、 甩 三 个 功能 。 这 样 我 们 就 将 四 级 流水 
线 变 成 了 六 级 流水 线 。 为 了 达到 完全 的 加 速效 果 ， 我 们 需要 重新 平衡 其 他 步骤 使 得 它们 的 长 度 
相同 ， 在 处 理 器 和 洗衣 店 中 都 是 这 样 。 因 为 更 多 的 操作 被 重 倒 ， 有 更 多 的 并 行 性 被 挖 气 出 来 。 
因为 时 钟 周期 缩短 的 缘故 ， 性 能 会 得 到 潜在 的 增强 。 | 

另 一 种 方法 是 复制 计算 机 内 部 部 件 的 数量 ， 使 得 每 个 流水 级 可 以 启动 多 条 指令 。 这 种 技术 
一 般 被 称 为 多 发 射 (multiple issue) 。 一 个 多 发 射 的 洗衣 店 会 把 原 有 的 一 台 洗衣 机 和 烘 干 机 替换 
为 三 台 洗 衣 机 和 三 台 烘 干 机 。 还 需要 雇用 更 多 的 洗衣 工 来 折 苔 和 存储 三 倍 于 原来 的 衣服 。 这 种 
方法 的 缺点 是 需要 额外 的 工作 让 所 有 机 器 同时 运转 并 将 负载 传 到 下 个 流水 级 。 


定 指令 级 并 行 : 指令 间 的 并 行 性 。 
3 多 发 射 : 一 种 单 时 钟 周期 内 发 射 多 条 指令 的 机 制 。 


每 个 阶段 同时 启动 多 条 指令 允许 指令 执行 速率 超过 时 钟 速率 ， 换 句 话 说， 就 是 CEI 小 于 1。 
正如 第 1 章 介绍 的 ， 有 时 候 使 用 IPC， 即 每 时 钟 周期 执行 的 指令 数 作为 度量 会 更 方便 。 例 如 ， 
一 个 4GHz 四 路 多 发 射 微 处 理 器 能 以 每 秒 160 亿 指令 的 峰值 速率 执行 ， 其 最 好 情况 下 的 CPI 达 
到 0.25，IPC 达到 4。 假 设 是 五 级 流水 线 ， 这 个 处 理 器 任何 时 刻 都 可 能 有 20 条 指令 在 同时 执 
行 。 现 在 的 高 端 微 处 理 器 尝试 在 每 个 时 钟 周 期 发 射 3 ~6 条 指令 ， 甚 至 中 端 设 计 的 目标 都 是 峰 
值 IPC 为 2。 然 而 ， 一般 来 说 存在 很 多 约束 ， 例 如 哪些 类 型 的 指令 可 以 同时 执行 ， 当 相关 性 增 
加 时 会 发 生 什么 新 的 问题 等 。 

实现 一 个 多 发 射 处 理 器 主要 有 两 种 方式 ， 其 区 别 是 将 主要 工作 分 给 编译 器 来 做 还 是 硬件 来 
做 。 由 于 不 同 的 实现 方式 将 导致 某 些 决策 是 静态 进行 的 〈 在 编译 时 ) 还 是 动态 进行 的 (在 执 
行 时 ) ， 所 以 这 两 种 方式 有 时 也 被 称 为 静态 多 发 射 〈static multiple issue) 和 动态 多 发 射 〈dy- 
namic multiple issue) 。 正 如 我 们 即将 见 到 的 ， 两 种 方式 还 有 其 他 别名 。 

多 发 射流 水 线 必 须 处 理 以 下 两 个 问题 : 

1) 往 发 射 槽 (issue slot) 中 发 射 多 条 指令 : 处 理 器 如 何 确定 在 给 定 的 时 钟 周期 发 射 多 少 
条 指令 以 及 发 射 何 种 指令 呢 ? 在 大 多 数 静 态 发 射 处 理 器 中 ， 这 个 过 程 至 少 有 很 大 一 部 分 是 由 编 
译 器 处 理 的 。 而 在 动态 发 射 处 理 器 中 ， 这 个 问题 一 般 是 由 处 理 器 在 运行 时 处 理 的 ， 尽 管 编译 器 
也 会 尽 其 所 能 通过 调整 指令 顺序 加 以 协助 。 

2) 处 理 数据 冒险 和 控制 冒险 : 在 静态 发 射 处 理 器 中 ， 部 分 甚至 全 部 的 数据 冒险 和 控制 冒 
险 是 由 编译 器 静态 处 理 的 。 相 反 ， 绝 大 多 数 的 动态 发 射 处 理 器 通过 硬件 技术 在 执行 时 至 少 消除 
某 些 类 别 的 冒险 。 

尽管 这 里 我 们 把 它们 看 成 两 种 不 同 的 方法 ， 实 际 上 这 两 种 方法 经 常 借 用 对 方 的 技术 ,没有 
哪 一 种 方法 可 以 称 得 上 是 完全 独立 的 。 


人 ”静态 多 发 射 : 实现 多 发 射 处 理 器 的 一 种 方法 ， 其 中 决策 是 在 执行 前 的 编译 阶段 做 出 的 。 
”动态 多 发 射 : 实现 多 发 射 处 理 器 的 一 种 方法 ， 其 中 决策 是 由 处 理 器 在 执行 阶段 做 出 的 。 
人 发 射 模 : 在 给 定时 钟 周期 内 能 够 发 射 指令 的 位 置 ， 可 以 类 比 于 短跑 比赛 中 的 起 点 位 置 。 











4. 10.1 推测 的 概念 


推测 是 一 种 寻找 和 挖 气 更 大 ILP 的 最 重要 的 方法 。 推 测 (speculation) 是 一 种 为 了 使 依赖 
于 被 推测 指令 的 其 他 指令 可 以 执行 ， 而 允许 编译 器 或 处 理 器 “猜测 ”指令 结果 的 方法 。 例 如 ， 
我 们 可 以 推测 分 支 指令 的 结果 ， 这 样 分 支 后 的 其 他 指令 就 可 以 提前 执行 了 。 另 一 个 例子 是 候 
设 load 指令 前 有 一 条 store 指令 ， 我 们 可 以 推测 它们 不 对 同一 存储 器 地 址 进行 访问 ， 这 样 就 
可 以 把 load 指令 提 到 store 指令 前 执行 。 推 测 的 问题 在 于 可 能 会 猜 错 。 所 以 ， 任 何 推测 技术 
必须 包含 一 种 机 制 ， 它 能 检查 推测 的 正确 性 并 在 推测 错误 时 能 取消 根据 原 推 测 结果 执行 指 
令 的 影响 。 实 现 这 种 回 卷 能 力 增加 了 额外 的 复杂 性 。 


人 推测: 一 种 编译 器 或 处 理 器 推测 指令 结果 以 消除 执行 其 他 指令 对 该 结果 依赖 的 方法 。 


推测 可 以 由 编译 器 或 硬件 来 完成 。 例 如 ， 编 译 器 可 以 利用 推测 对 指令 进行 重 排序 ， 将 一 条 
指令 移 过 分 支 ， 也 可 将 load 指令 与 store 指令 交换 。 使 用 本 节 后 面 讨论 的 技术 ， 处 理 器 硬件 可 
以 在 运行 时 实现 同样 的 变换 。 

推测 错误 时 的 恢复 机 制 对 软 硬 件 是 非常 不 同 的。 对 软件 来 说 ， 编 译 器 经 常 插入 额外 的 指令 
检查 推测 的 正确 性 并 提供 专门 的 修复 例 程 供 推测 错误 时 使 用 。 对 硬件 来 说 ， 处 理 器 经 常 缓存 推 
测 的 结果 直至 推测 的 结果 得 到 确认 。 如 果 推 测 是 正确 的 ， 绥 存 的 结果 写 回 寄存 器 堆 和 存储 器 。 
如 果 推 测 是 错误 的 ， 硬 件 将 清除 缓存 并 重新 执行 正确 的 指令 序列 。 

推测 还 可 能 导致 另 一 个 问题 : 对 某 些 指令 的 推测 会 导致 原本 不 存在 的 异常 发 生 。 例 如 ， 假 
设 推测 执行 一 条 装载 指令 ， 但 是 在 推测 错误 的 情况 下 ， 该 指令 所 使 用 的 地 址 是 非法 的 。 结 果 ， 
一 个 本 不 应 该 发 生 的 异常 发 生 了 。 这 个 问题 之 所 以 复杂 是 因为 ， 如 果 这 条 装载 指令 本 来 不 是 推 
测 执行 ， 那 么 该 异常 必然 发 生 。 在 基于 编译 器 的 推测 中 ， 这 类 问题 的 处 理 方法 是 加 入 额外 的 推 
测 支持 ， 使 得 这 样 的 异常 暂时 被 忽略 ， 直 至 可 以 确定 异常 会 发 生 为 止 。 在 基于 硬件 的 推测 中 ， 
异常 被 简单 地 缓存 起 来 ， 直 到 导致 异常 的 指令 确定 会 执行 。 在 异常 真正 发 生 时 ， 就 会 执行 正常 
的 异常 处 理 程序 。 

推测 在 设计 正确 时 能 改善 性 能 ， 而 不 慎 使 用 可 能 降低 性 能 ， 所 以 需要 做 大 量 的 工作 来 决定 
何 时 采用 推测 更 为 合适 。 在 本 节 的 后 半 部 分 ,我 们 将 介绍 静态 和 动态 的 推测 技术 。 


4. 10.2 静态 多 发 射 处 理 器 


所 有 的 静态 多 发 射 处 理 器 都 使 用 编译 器 来 帮助 封装 多 条 指令 并 处 理 冒险 。 在 一 个 静态 发 射 处 
理 器 中 ， 可 以 在 给 定时 钟 周期 内 发 射 多 条 指令 ， 也 称 为 发 射 包 (issue packet)。 发 射 包 可 被 视 为 
一 条 完成 多 个 操作 的 长 指令 。 这 种 看 法 不 仅 是 为 了 类 比 。 因 为 静态 多 发 射 处 理 器 一 般 对 一 个 时 钟 
周期 内 能 发 射 的 多 条 指令 有 所 限制 ， 因 此 把 发 射 包 看 成 允许 同时 进行 很 多 操作 的 一 条 指令 是 可 行 
的 。 这 种 观点 引出 了 这 种 方法 的 最 初 名 字 : 超 长 指令 字 (Very Long Instruction Word，VLIW)。 


2 发射 包 : 在 一 个 时 钟 周期 内 发 射 的 多 条 指令 的 集合 。 这 个 包 可 以 由 编译 器 静态 生成 ， 也 可 
以 由 处 理 器 动态 生成 。 

含 “ 超 长 指令 字 : 一 类 可 以 同时 启动 多 个 操作 的 指令 集 ， 其 中 操作 在 单个 指令 中 相互 独立 ， 并 
且 一 般 都 有 独立 的 操作 码 字 段 。 - 
绝 大 多 数 静态 多 发 射 处 理 器 也 依赖 编译 器 处 理 数据 冒险 和 控制 冒险 。 编 译 器 的 任务 可 能 包 


括 静 态 分 支 预测 和 代码 调度 ， 以 减少 冒险 或 阻止 所 有 的 冒险 。 在 描述 更 先进 的 处 理 器 中 所 采用 
的 技术 之 前 ， 先 来 看 一 个 简单 的 静态 多 发 射 MIPS 处 理 器 的 例子 。 
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一 个 例子 : MIPS 指令 集 的 静态 多 发 射 

为 了 感受 一 下 静态 多 发 射 ， 我 们 考查 一 个 简单 的 双 发 射 MIPS 处 理 器 ， 其 中 一 条 指令 可 以 
是 整 型 ALU 操作 或 分 支 ， 男 一 条 指令 可 以 是 装载 指令 或 存储 指令 。 在 某 些 和 铭 入 式 MIPS 处 理 髓 
中 就 是 这 么 设计 的 。 每 个 时 钟 周 期 发 射 两 条 指令 意味 着 需要 取 回 和 译 码 64 位 的 指令 。 在 许多 
静态 多 发 射 处 理 器 中 ， 其 至 是 所 有 的 VLIW 处 理 器 中 ,严格 限制 了 可 同时 发 射 指令 的 所 处 位 置 
以 简化 译 码 和 发 射 过 程 。 因 此 ， 我 们 要 求 两 条 指令 成 对 地 放 在 一 个 64 位 对 齐 的 内 存 区 域 中 ， 
并 且 ALU 指令 或 分 支 指令 必须 放 在 前 面 。 此 外 ， 如 果 找 不 到 另 一 条 与 之 可 以 同时 发 射 的 指令 ， 
就 用 nop 指令 代替 它 。 这 样 ， 指 令 总 是 可 以 成 对 发 射 ， 当 然 其 中 可 能 有 一 条 nop 指令 。 
图 4-68 给 出 了 指令 成 对 在 流水 线 中 运行 的 情况 。 












































指令 类 型 流水 线 阶 段 
ALU 或 分 支 IF ID | Ex MEM wB | 
load 或 store IF ID EX | MEM WB 下 
ALU 或 分 支 IF ID EX | MEM WB 
load 或 store | IF ID EX MEM WB 
ALU 或 分 支 FF | D EX MEM WB 
load 或 store IF ID | Ex | MEM WB 
ALU 或 分 支 IF ID EX MEM WB 
load 或 store | | | | EX MEM | WB 


























图 4-68 静态 双 发 射流 水 线 。ALU 指令 与 数据 传输 指令 同时 发 射 。 这 里 我 们 假设 使 用 与 单 发 射 相同 的 五 
级 流水 线 。 尽 管 这 并 非 严格 的 要 求 ， 但 这 样 做 确实 会 带 来 一 些 好 处 。 特 别 是 使 寄存 器 堆 的 写 操 
作 位 于 流水 线 的 最 后 ， 可 以 简化 异常 处 理 和 降低 实现 精确 异常 的 难度 ， 这 些 问题 在 多 发 射 处 理 
器 中 将 变 得 更 加 难以 处 理 
静态 多 发 射 处 理 器 之 间 的 不 同 在 于 处 理 潜在 的 数据 冒险 和 控制 冒险 的 方式 。 在 有 的 设计 
中 ， 编 译 器 负责 避免 所 有 的 冒险 ， 它 通过 调度 指令 和 插入 no-ops 等 方法 使 得 代码 在 执行 时 完全 
不 需要 冒险 检测 和 硬件 产生 阻塞 。 在 另外 一 些 设计 中 ,硬件 检测 数据 冒险 并 在 两 个 发 射 包间 产 
生 阻塞， 而 编译 器 只 负责 避免 一 个 指令 对 中 两 条 指令 之 间 的 依赖 。 尽 管 如 此 ， 冒 险 仍 会 使 包含 依 
赖 指令 的 整个 发 射 包 阻塞 。 不管 是 软件 必须 处 理 所 有 的 冒险 还 是 只 负责 减少 不 同 发 射 包 之 间 的 冒 
险 ， 都 会 增加 一 次 完成 多 个 操作 的 长 指令 的 情况 。 在 这 个 例子 中 ， 我 们 假定 使 用 第 二 种 方法 。 
为 了 并 行 发 射 一 个 ALU 操作 和 数据 传输 操作 ， 首 先 需要 增加 一 些 硬 件 : 除了 通常 的 冒险 检测 
和 阻塞 逻辑 之 外 ， 还 有 寄存 器 堆 的 额外 端口 〈 见 图 4-69 ) 。 在 一 个 时 钟 周期 内 ， 我 们 需要 为 ALU 
操作 读 两 个 以 上 寄存 器 ， 为 存储 操作 读 两 个 以 上 寄存 器 ， 为 ALU 操作 写 一 个 端口 ， 为 装载 操作 写 
一 个 端口 。 因 为 ALU 要 用 来 进行 ALU 操作 ， 所 以 需要 一 个 额外 的 加 法 器 来 为 数据 传输 计算 有 效 
地 址 。 如 果 没 有 这 些 额 外 的 硬件 资源 ， 我 们 的 双 发 射流 水 线 将 不 可 避免 地 遭遇 结构 冒险 。 
显然 ， 双 发 射 处 理 器 最 多 能 将 性 能 提高 两 倍 。 事 实 上 ， 为 了 达到 这 一 点 ， 需 要 双 发 射流 水 
线 中 重 番 的 指令 数 翻 倍 。 人 额 外 的 重 倒 使 数据 冒险 和 控制 冒险 带 来 的 相对 性 能 损失 也 增加 了 。 例 
如 ， 在 我 们 简单 的 五 级 流水 线 中 ， 装 载 指 令 有 一 个 时 钟 周期 的 使 用 延迟 (use latency) ， 以 防止 
一 条 指令 无 阻塞 地 使 用 其 结果 。 在 一 个 双 发 射 五 级 流水 线 中 ， 装 载 指令 的 结果 不 能 在 下 个 时 钟 
周期 使 用 。 这 意味 着 下 两 条 指令 不 能 无 阻塞 地 使 用 装载 的 结果 。 而 且 ， 原 本 在 简单 的 五 级 流水 
线 中 没有 使 用 延迟 的 ALU 指令 现在 有 一 个 周期 的 使 用 延迟 ， 因 为 其 结果 不 能 在 与 其 配对 的 存 
储 指令 或 装载 指令 中 使 用 。 为 了 有 效 地 挖掘 多 发 射 处 理 器 中 潜在 的 并 行 性 ， 需 要 使 用 更 高 级 的 
编译 器 或 硬件 调度 技术 ， 其 中 静态 多 发 射 对 编译 器 有 更 高 的 要 求 。 


人 使 用 延迟 : 在 装载 指令 与 可 以 无 阻塞 使 用 其 结果 的 指令 间 相 隔 的 时 钟 周期 数 。 
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图 4-69 一 个 静态 双 发 射 的 数据 通路 。 双 发 射 所 需 的 额外 硬件 用 灰色 线 显示 ， 主 要 包括 : 来 自 指令 存储 
器 的 额外 32 位 输出 ,寄存器 堆 多 出 的 两 个 读 端口 和 一 个 写 端 口 ， 还 有 一 个 额外 的 ALU。 这 里 
假设 下 面 那个 ALU 处 理 数据 传输 时 的 地 址 计算 ， 而 上 面 那 个 ALU 处 理 所 有 的 其 他 操作 


区 | 例题 简单 的 多 发 射 代码 调度 
在 一 个 MIPS 静态 双 发 射流 水 线 中 ， 下 面 这 个 循环 将 如 何 调度 ? 
Loop: 1w $t0, 0($s1) # $t0=array element 
addu $t0,$t0,$s2# add scalar in $s2 
SW $t0, 0O($s1)# store result 
addi $sl,$sl,-4# decrement pointer 
bne $sl,$zero,Loop# branch $s1!=0 


对 该 指令 序列 进行 重 排序 ， 以 尽 可 能 地 避免 流水 线 阻 塞 。 假 设 分 支 是 可 预测 的 ， 即 控制 冒 
险 由 硬件 处 理 。 
邯 | 答案 
前 三 条 指令 间 存 在 数据 相关 性 ， 最 后 两 条 指令 间 也 是 如 此 。 图 4-70 给 出 了 这 些 指 令 的 最 
佳 调度 方式 。 注 意 ， 只 有 一 对 指令 同时 使 用 了 两 个 发 射 槽 。 每 次 循环 需要 花费 4 个 时 钟 周 期 。 
在 4 个 时 钟 周 期 内 执行 5 条 指令 ， 与 最 好 情况 下 0.5 的 CPI 和 2.0 的 IPC 相 比 ，CPI 只 有 0.8 而 
IPC 只 有 1.25。 注 意 ,， 在 计算 CPI 或 IPC 时 ， 我 们 没有 把 执行 的 nop 指令 也 算 到 有 效 的 指令 中 
去 。 如 果 算 进去 能 提高 CPI， 但 并 不 能 提高 真实 的 性 能 。 


ALU 或 分 支 指令 数据 传输 指令 时 钟 周期 


lw $t0,0 ($s1) 















addi $sl,$sl,—-4 
addu $t0, $t0,$s2 
bne $sl,$zero,Loop Sw $t0,4 ($sl) 














图 4-70 在 双 发 射 MIPS 流水 线 中 调度 的 代码 。 空 白 槽 中 是 nop 指令 口 
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有 一 种 重要 的 从 循环 中 获得 更 多 性 能 的 编译 技术 叫 循环 展开 〈loop unrolling)。 循 环 展开 时 循环 
体会 被 复制 多 份 。 循 环 展开 后 ， 通 过 重合 不 同 循环 体 中 的 指令 可 以 获得 更 高 的 指令 级 并 行 (ILP)。 


习 ”循环 展开 : 一 种 从 存 取 数 组 的 循环 中 获取 更 多 性 能 的 技术 ,其 中 循环 体会 被 复制 多 份 并 且 
不 同 循环 体 中 的 指令 可 能 会 调度 到 一 起 。 


匣 ) 例题 , 多 发 射流 水 线 中 的 循环 展开 
试 着 对 上 面 的 例子 进行 循环 展开 和 调度 ， 看 其 效果 如 何 。 为 简单 起 见 ， 假 设 循环 起 始 地 址 
与 32 位 内 存 边界 对 齐 。 


总 答案 

为 了 无 延迟 地 调度 循环 ,我 们 需要 把 循环 体 复制 4 份 。 在 展开 和 消除 不 必要 的 循环 开销 指 
令 后 ， 将 得 到 4 个 备份 ， 每 份 包含 lw 指令 、adq 指令 和 sw 指令 ， 还 有 adqi 指令 和 bne 指 
令 各 一 条 。 图 4-71 给 出 了 展开 并 调度 后 的 代码 。 


$sl1,$s1,-16 $t0，0($s 
$t1,12($s1) 
$t0,$t0,$s2 $t2, 8($s 




















SW stl 12($s1) 
SW $t2, 8($s1) 
Sw $t3, 4($s1) 











图 4-71 对 图 4-70 中 的 代码 进行 循环 展开 并 在 一 个 静态 双 发 射 MIPS 流水 线 中 调度 后 的 代码 。 空 白 槽 中 
是 nop 指令 。 因 为 循环 中 的 第 一 条 指令 将 $sl 寄存 器 中 的 值 减 16 ， 而 装载 指令 的 地 址 又 是 $sl 
寄存 器 中 的 原 值 ， 所 以 这 个 地 址 依次 减 4、 减 8、 减 12 口 


在 循环 展开 过 程 中 ， 编 译 器 引 和 了 几 个 临时 寄存 器 〈$t1、$t2 、$t3 ) 。 这 个 过 程 被 称 
为 寄存 器 重 命名 (register renaming) ， 目 的 是 消除 一 些 虚 假 的 数据 依赖 ， 这 些 虚 假 的 数据 依 
赖 可 能 导致 潜在 的 冒险 或 妨碍 编译 器 灵活 地 调度 代码 。 考 虑 一 下 如 果 只 使 用 $t0 展开 的 代 
码 是 什么 样子 的 。 在 指令 sw t0,4 ($sl) 后 面 会 有 多 对 lw $t0,0($$sl) 指 令 和 adqdu 池 
t0，$t0，$s2 指令 。 如 果 不 管 $t0 寄存 器 的 使 用 ， 那 么 这 些 指令 应 该 是 完全 无 关 的 ， 即 一 
个 指令 序列 与 下 一 个 指令 序列 之 间 没 有 任何 数据 流动 。 这 就 是 反 相关 (antidependence) ， 也 
被 称 为 名 字 相 关 (name dependence) ， 即 只 是 因为 重用 寄存 器 名 引起 的 相关 ， 而 并 非 一 个 真 
实 的 数据 相关 。 


习 寄存 器 重 命名 : 由 编译 器 或 硬件 对 寄存 器 进行 重 命名 以 消除 反 相 关 。 
号 ” 反 相 关 : 也 被 称 为 名 字 相 关 ， 因 为 寄存 器 名 的 重用 导致 的 相关 ， 并 非 由 两 条 指令 中 使 用 同 
一 个 值 导致 的 真正 相关 。 


在 循环 展开 中 的 寄存 器 ， 重 命名 使 得 编译 器 移动 不 相关 的 那个 指令 ， 从 而 得 到 更 好 的 代 
码 。 重 命名 的 过 程 消除 了 名 字 相 关 ， 同 时 保留 了 真正 的 相关 。 

注意 ， 既 然 循环 中 14 条 指令 中 的 12 条 以 指令 对 的 形式 被 执行 ，4 次 循环 将 花费 8 个 时 钟 
周期 ， 即 每 次 循环 2 个 时 钟 周期 ，CPI 为 8[14 =0. 57。 双 发 射 加 上 循环 展开 与 调度 使 得 性 能 提 
高 了 将 近 两 倍 ， 这 一 方面 是 因为 减少 了 循环 控制 指令 ， 另 一 方面 是 因为 双 发 射 的 缘故 。 这 种 性 
能 提高 的 代价 是 使 用 了 4 个 而 非 一 个 临时 寄存 器 ， 同 时 代码 长 度 也 增长 了 很 多 。 





4. 10.3 动态 多 发 射 处 理 器 


动态 多 发 射 处 理 器 通常 也 称 为 超标 量 处 理 器 ， 或 简称 超标 量 (superscalar) 。 在 最 简单 的 超 
标量 处 理 器 中 ， 指 令 顺 序 发 射 ， 每 个 周期 处 理 器 决定 是 发 射 0 条 、1 条 ， 还 是 多 条 指令 。 显 然 ， 
在 这 种 处 理 器 上 要 达到 较 好 的 性 能 仍然 依赖 编译 器 对 指令 的 调度 ， 通 过 错过 依赖 关系 以 达到 较 
高 的 指令 发 射 速率 。 尽 管 使 用 了 编译 器 进行 调度 ， 这 种 简单 的 超标 量 处 理 器 与 VLIW 处 理 器 仍 
有 显著 不 同 。 在 超标 量 处理 器 中 ,不 管 代码 是 否 经 过 调度 ， 都 是 由 硬件 来 保证 执行 的 正确 性 。 
并 且 ， 编 译 得 到 的 代码 应 当 始 终 正 确 执行 ， 而 与 指令 发 射 速率 和 处 理 器 的 流水 线 结构 无 关 。 在 
某 些 VLIW 的 设计 中 情况 并 非 如 此 ， 当 把 代码 从 一 个 处 理 器 移 到 另 一 个 处 理 器 上 运行 时 ， 可 能 
需要 重新 编译 。 在 其 他 一 些 静 态 发 射 处 理 器 上 ， 代 码 可 以 在 不 同 的 处 理 器 上 实现 正确 运行 ,但 
效果 可 能 很 差 以 至 于 不 得 不 进行 更 加 有 效 的 编译 。 

许多 超标 量 处 理 器 扩展 了 基本 的 动态 发 射 决 策 ， 将 动态 流水 线 调 度 (dynamic pipeline 
scheduling) 也 包含 在 内 。 动 态 流水 线 调度 选择 某 个 时 钟 周 期 内 将 执行 的 指令 ,约束 条 件 是 尽量 不 产 
生 冒 险 和 阻塞 。 让 我 们 从 一 个 简单 的 数据 冒险 的 例子 出 发 来 进行 说 明 。 考 虑 下 面 的 指令 序列 : 

addu St], $t0, $t2 


sub $s4, $54, $t3 
slti $t5, $s4, 20 


即使 sub 指令 准备 好 执行 ， 它 也 必须 等 待 lw 和 addu 指令 先 结束 才 行 。 如 果 内 存 很 慢 
(第 5 章 解 释 了 有 时 访 存 操作 会 很 慢 的 原因 ， 即 高 速 缓存 缺失 ) ，sub 指令 可 能 会 等 待 很 多 个 时 
钟 周期 。 动 态 流 水 线 调 度 可 以 部 分 或 者 完全 避免 这 种 冒险 。 


超标 量 : 一 种 高 级 流水 线 技 术 ， 可 以 使 每 个 周期 处 理 器 能 执行 的 指令 数 超过 一 条 。 
动态 流水 线 调度 : 对 指令 进行 重 排序 以 避免 阻塞 的 硬件 支持 。 
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动态 流水 线 调度 

动态 流水 线 调 度 选择 下 一 条 要 执行 的 指令 ， 可 能 的 话 会 重 排 指 令 以 避免 阻塞 。 在 这 种 处 理 
器 中 ， 流水线 被 划分 为 3 个 主要 单元 : 取 指 与 发 射 单元 、 多 个 功能 单元 (在 2013 年 的 高 端 处 
理 器 中 有 一 打 或 更 多 ) 和 一 个 提交 单元 (commit unit) 。 图 4-72 描述 了 这 个 模型 。 第 一 个 单元 
取 指 并 译 码 ， 然 后 将 每 条 指令 发 送 到 相应 的 功能 单元 执行 。 每 个 功能 单元 都 有 自己 的 缓冲 区 
( 称 为 保留 站 (reservation station) ) ， 用 来 保存 操作 数 和 操作 (下 一 节 我 们 将 讨论 许多 最 新 处 理 
器 中 使 用 的 保留 站 的 替代 选择 ) 。 当 缓冲 区 中 包含 了 所 有 的 操作 数 ， 并 且 功 能 单元 就 绪 时 ， 结 
果 就 被 计算 出 来 。 结 果 得 到 后 ， 被 发 送 到 等 待 该 结果 的 保留 站 和 提交 单元 。 提 交 单 元 缓存 这 个 
结果 ， 在 确定 安全 时 ， 再 将 这 个 结果 写 回 寄存 器 堆 或 存储 器 (对 存储 指令 ) 。 提 交 单 元 中 的 组 
冲 区 通常 称 为 重 排序 缓冲 区 ( reorder buffer) ， 它 也 可 以 用 来 提供 操作 数 ， 其 工作 方式 类 似 于 天 
态 调度 流水 线 中 的 旁 路 逻辑 。 一 旦 结果 写 回 寄 存 器 堆 ， 其 可 以 从 寄存 器 堆 中 直接 被 取出 ， 和 一 
般 的 流水 线 完 全 一 样 。 


2 提交 单元 : 位 于 动态 流水 线 和 乱 序 流水 线 中 的 一 个 单元 ， 用 以 决定 何 时 可 以 安全 地 将 操作 
结果 送 至 程序 员 可 见 的 寄存 器 和 存储 器 。 

2 保留 站 : 功能 单元 的 缓冲 区 ， 用 来 保存 操作 数 和 操作 。 

2 重 排 序 缓冲 区 : 动态 调度 处 理 器 中 用 于 暂时 保存 执行 结果 的 缓冲 区 ， 等 到 安全 时 才 将 其 中 
的 结果 写 回 寄存 器 或 存储 器 。 


将 操作 数 缓存 在 保留 站 中 并 将 结果 放 在 重 排序 缓冲 区 中 ， 实 际 上 提供 了 一 种 寄存 器 重 命名 
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机 制 ， 类 似 于 前 面 循 环 展开 例子 中 编译 器 所 做 的 工作 。 为 了 在 概念 上 分 析 其 工作 方式 ， 考 虑 如 
340 | 下 几 个 步骤 : 
1) 发 射 指令 时 ， 它 先 被 复制 到 合适 功能 单元 的 保留 站 。 如 果 它 的 操作 数 在 寄存 器 堆 中 或 
重 排序 缓冲 区 中 可 用 ， 那么 操作 数 立 即 被 复制 到 保留 站 中 。 除 非 所 有 的 操作 数 和 执行 单元 可 
用 ， 否 则 指令 一 直 缓 存在 保留 站 中 。 如 果 指 令 已 经 被 发 射 ， 那么 其 操作 数 对 应 的 寄存 器 堆 副 本 
不 再 需要 ， 如 果 此 时 发 生 了 对 该 寄存 器 的 写 请 求 ， 其 值 可 以 被 覆盖 。 

















图 4-72 动态 调度 流水 线 中 的 三 个 主要 单元 。 最 后 一 个 更 新 状态 的 步骤 也 被 称 为 提交 


2) 如 果 操 作 数 不 在 寄存 器 堆 或 重 排序 缓冲 区 中 ,那么 它 应 该 被 某 个 功能 单元 以 计算 结果 
的 形式 输出 。 硬 件 将 帮助 定位 产生 这 个 结果 的 功能 单元 。 当 该 单元 计算 出 结果 时 ， 这 个 结果 将 
直接 从 功能 单元 复制 到 保留 站 ， 而 跳 过 寄存 器 堆 。 

上 面 这 两 步 可 以 有 效 地 利用 重 排序 缓冲 区 和 保留 站 以 实现 寄存 器 重 命名 。 

从 概念 上 讲 ， 可 以 把 动态 调度 流水 线 想象 为 对 程序 数据 流 结构 的 分 析 过 程 。 处 理 器 在 不 违 
背 程 序 原 有 的 数据 流 顺序 的 前 提 下 以 某 种 顺序 执行 各 条 指令 。 这 种 执行 方式 被 称 为 乱 序 执行 
(out-of-order execution) ， 因 为 执行 指令 的 顺序 可 以 与 取 指 的 顺序 不 同 。 

为 了 使 程序 表现 得 像 是 在 一 条 简单 的 顺序 流水 线 上 执行 ， 取 指 和 译 码 单元 必须 能 够 顺序 发 
射 指令 ， 以 记录 程序 中 的 依赖 关系 。 而 提交 单元 也 必须 按照 程序 顺序 将 结果 写 回 寄存 器 堆 和 存 
储 器 。 这 种 保守 的 方案 称 为 顺序 提交 (in-order commit) 。 所 以 当 异 常 发 生 时 ,处理 器 可 以 找到 
最 后 执行 的 那 条 指令 ， 而 只 有 这 条 导致 异常 的 指令 之 前 的 指令 才能 对 寄存 器 状态 进行 修改 。 虽 
然 处 理 器 的 前 端 ( 取 指 和 发 射 ) 和 后 端 (提交 ) 按照 顺序 操作 指令 ， 各 功能 单元 可 以 在 获得 
-所 需 数据 的 条 件 下 随时 开始 执行 过 程 。 目 前 所 有 的 动态 调度 流水 线 都 采用 顺序 提交 。 


全“ 乱 序 执行 : 流水 线 执行 的 一 种 情况 ， 即 执行 的 指令 被 阻塞 时 不 会 导致 后 面 的 指令 等 待 。 
他 顺序 提交 : 流水 线 执行 的 结果 以 取 指 顺序 写 回 程序 员 可 见 寄存 器 的 一 种 提交 方式 。 


动态 调度 经 常 与 基于 硬件 的 推测 机 制 相 结 合 ， 特 别 是 对 分 支 指令 的 推测 。 通 过 对 分 支 指令 
的 方向 进行 推测 ， 动 态 调度 处 理 器 可 以 在 推测 方向 上 进行 取 指 和 执行 。 由 于 指令 是 顺序 提交 
的 ， 我 们 可 以 在 分 支 指令 及 所 有 推测 执行 的 指令 提交 前 知道 推测 是 否 正确 。 一 个 推测 执行 的 动 
态 调 度 流 水 线 同 样 可 以 对 装载 指令 的 目的 地 址 进行 推测 、 对 存 取 指 令 进行 重 排序 和 利用 提交 单 
元 避免 错误 的 推测 。 在 下 一 节 中 我 们 将 讨论 Intel Core i7 处 理 器 的 动态 调度 流水 线 设计 与 推测 
L341] 机 制 。 
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加 理解 程序 性 能 既然 编译 器 可 以 根据 数据 依赖 关系 调度 代码 ， 你 可 能 会 问 ,为 什么 还 需要 
超标 量 处 理 器 来 进行 动态 调度 ? 这 里 面 主 要 有 三 个 原因 。 

第 一 ， 并 不 是 所 有 的 阻塞 都 是 可 以 事先 知道 的 。 尤 其 是 cache 缺失 (参见 第 5 章 ) 会 
导致 不 可 预测 的 阻塞 。 动 态 调度 使 得 处 理 器 在 一 些 指令 阻塞 时 ， 可 以 调度 其 他 指令 继续 执 
行 ， 以 掩盖 阻塞 。 

第 二 ， 如 果 处 理 器 采用 动态 分 支 预测 推测 分 支 的 结果 ， 那 么 由 于 这 些 信 息 依 赖 于 预测 
和 分 支 指令 的 真实 执行 情况 ， 编 译 器 无 法 得 知 指令 的 精确 顺序 。 采 用 动态 推测 而 不 使 用 动 
态 调 度 ， 会 极 大 地 限制 可 开发 的 指令 级 并 行 度 (ILP) 。 

第 三 ， 由 于 流水 线 延 迟 和 发 射 宽度 根据 处 理 器 的 具体 实现 的 不 同 有 很 大 的 差别 ， 所 以 
最 佳 的 编译 代码 顺序 也 并 不 固定 。 例 如 ， 调 度 一 个 相互 依赖 的 指令 序列 的 具体 方式 与 发 射 
宽度 和 延迟 存在 着 密切 关系 。 流 水 线 的 结构 同样 会 影响 循环 展开 的 尝试 ， 才 能 避免 可 能 的 
阻塞 。 它 还 会 影响 基于 编译 器 的 寄存 器 重 命名 的 过 程 。 动 态 调度 使 得 硬件 将 这 些 细节 隐藏 
起 来 。 因 此 ， 用 户 和 软件 发 行商 就 不 用 针对 同一 指令 集 的 不 同 处 理 器 发 行 相应 的 软件 了 。 
同样 ， 以 前 的 代码 也 能 从 更 新 的 处 理 器 上 获得 好 处 而 不 用 重新 编译 。 


车 重点 ”流水线 和 多 发 射 都 提高 了 指令 的 吞吐 率 并 致力 于 开发 指令 级 并 行 。 然 而 ， 由 于 处 理 
器 有 时 必须 等 待 依赖 关系 明确 后 才能 继续 工作 ， 所 以 程序 中 的 数据 相关 和 控制 相关 往往 限 
制 了 可 达 性 能 的 上 限 。 基 于 软件 的 指令 级 并 行 开发 主要 依赖 于 编译 器 来 寻找 依赖 关系 ， 并 
尽量 减少 这 些 依赖 关系 可 能 造成 的 不 良 后 果 。 基 于 硬件 的 指令 级 并 行 开 发 主要 依赖 于 流水 
线 和 多 发 射 机 制 。 推 测 执行 可 以 由 硬件 或 编译 器 完成 ， 它 可 以 增加 指令 行 并 行 。 但 是 使 用 
时 必须 小 心 ， 因 为 错误 的 推测 可 能 会 降低 性 能 。 347 


团 ! 硬件 /软件 接口 、 现 代 的 高 性 能 微 处 理 器 可 以 在 一 个 时 钟 周期 内 发 射 多 条 指令 。 遗 岩 的 是 ， 
持续 这 样 的 高 发 射 速率 是 相当 困难 的 。 例如， 尽管 我 们 有 一 个 单 时 钟 周期 可 以 发 射 4~6 
条 指令 的 处 理 器 ， 只 有 很 少 的 应 用 程序 能 保持 每 周期 发 射 两 条 以 上 指令 。 这 里 面 主要 有 两 
个 原因 。 

首先 ， 由 于 使 用 了 流水 线 ， 主 要 的 性 能 瓶颈 在 于 那些 不 能 立即 解决 的 相关 性 ， 这 
就 限制 了 指令 间 的 并 行 度 ， 因 此 也 就 限制 了 发 射 速率 。 虽 然 对 于 真正 的 数据 相关 而 言 
没有 什么 好 的 解决 方法 ， 但 是 一 般 情 况 下 硬件 或 编译 器 对 于 相关 是 否 确实 存在 都 不 知 
道 ， 因 而 也 就 只 能 保守 地 假设 相关 存在 了 。 例 如 ， 使 用 了 指令 的 程序 由 于 有 更 多 的 内 
存 别名 问题 ， 往 往 存在 隐 式 相关 的 可 能 性 更 大 。 反 之 ， 对 于 数组 访问 而 言 ， 由 于 有 更 
大 的 规则 性 ， 使 得 编译 器 可 以 推测 出 没有 相关 存在 的 情况 。 同 样 ， 不 能 在 编译 期 或 运 
行 期 被 准确 预测 的 分 支 同 样 会 限制 指令 级 并 行 的 开发 。 一 般 来 说 ， 指 令 级 并 行 总 是 有 
开发 的 空间 的 ， 但 是 因为 并 行 度 较 为 分 散 〈 有 时 可 能 存在 于 上 千 条 指令 之 间 ) ， 编 译 器 
和 硬件 往往 会 显得 力不从心 。 

其 次 ， 存 储 器 层次 (这 是 第 5 章 的 主题 ) 中 的 缺失 同样 会 使 流水 线 难 以 满 负 荷 运转 。 
尽管 一 些 访 存 引起 的 阻塞 可 以 被 掩盖 掉 ， 但 是 有 限 的 指令 级 并 行 度 同样 会 使 阻塞 被 掩盖 的 
程度 有 所 下 降 。 


4. 10.4 能 耗 效率 与 高 级 流水 线 


通过 动态 多 发 射 和 推测 执行 开发 指令 级 并 行 的 负面 问题 是 功 耗 效率 。 每 项 发 明 都 成 功 地 将 
更 多 的 晶体 管 转化 为 性 能 ， 但 是 这 种 转化 往往 极其 缺乏 效率 。 因 为 功 耗 墙 的 原因 ， 最 新 的 处 理 
器 是 单 片 多 核 式 的 ， 而 非 其 前 辈 的 深 流 水 线 或 贪 焚 式 推测 。 
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尽管 简单 的 处 理 器 没有 复杂 的 处 理 器 那么 快 ， 但 是 在 同样 的 能 耗 下 却 能 得 到 更 高 的 性 能 。 
所 以 当 设计 的 约束 更 多 来 自 能 耗 而 非 晶体 管 数量 时 ， 简 单 的 处 理 器 能 在 单 芯 片上 获得 更 高 的 
性 能 。 

图 4-73 给 出 了 一 些 处 理 器 的 流水 线 级 数 、 发 射 宽度 、 推 测 级 别 、 时 钟 频率 、 每 芯片 的 核 
数 和 功 耗 等 。 注 意 从 单 核发 展 到 多 核 时 流水 线 级 数 和 功 耗 的 减少 。 


团 ] 精 解 ”提交 单元 负责 寄存 器 堆 和 存储 器 的 更 新 。 一 些 动态 调度 处 理 器 在 执行 过 程 中 即时 更 
新 寄存 器 堆 ， 而 使 用 额外 的 寄存 器 来 实现 重 命名 功能 并 保存 之 前 寄存 器 的 复 本 直到 更 新 该 
寄存 器 的 指令 不 再 是 靠 推测 得 出 的 。 其 他 处 理 器 通常 把 结果 缓存 在 重 排序 缓冲 器 中 ， 由 提 
交 单元 在 随后 更 新 寄存 器 堆 。 在 指令 提交 之 前 ， 写 内 存 的 数据 必须 先 缓存 在 存储 缓冲 器 
( 见 第 5 章 ) 或 重 排序 缓冲 器 中 。 提 交 单 元 允许 缓冲 器 在 地 址 和 数据 有 效 时 并 且 store 操作 
不 依赖 于 预测 的 分 支 时 写 内 存 。 

车 | 精 解 非 阻塞 cache (nonblocking cache) 在 cache 缺失 (参见 第 5 章 ) 时 能 够 继续 提供 
cache 访问 服务 。 为 了 使 指令 在 cache 缺失 时 能 继续 执行 ， 乱 序 执行 处 理 器 需要 非 阻塞 
cache 的 支持 。 


TT 
rr 
[asp | cM | 5 | 2 | wv | 1 [|iolw 










jo | oo | 3 | ve | 1 | |lw| 
Intel Pentium 4 Willamette 2000MHz| 2 | 3 | Yes | 1 |73 |[w 
3000MHz | 31 | 3 | ve | 1 is|w 
cm 0 aoM| 1 | 4 | ve | 2 sw 
nel Gore Nemaiem [ao | 3300MHz | 4 | 4 | 
moon iw vir aa a | 4 | 


图 4-73 ”Intel 和 微 处 理 器 的 流水 线 复杂 度 、 核 数 和 功 耗 的 发 展 情况 。 其 中 ，Pentium 4 的 流水 线 级 
数 没 有 包括 提交 级 ， 如 果 加 上 提交 级 ，Pentium 4 的 流水 线 级 数 会 更 深 一 些 


名 小 测验 

说 明 下 列 开发 指令 级 并 行 度 的 技术 或 单元 主要 是 基于 硬件 还 是 基于 软件 。 对 某 些 项 来 说 两 者 都 
有 可 能 。 

1 分支 预 六 


， 超 长 指令 字 (VLIW) 
. 超标 量 

动态 调度 

乱 序 执行 

推测 机 制 

. 重 排序 缓冲 区 

. 寄存 器 重 命 名 


4.11 实例: ARM Cortex-A8 和 Intel Core i7 流水 线 
图 4-74 给 出 了 本 节 将 要 考察 的 两 个 处 理 ， 它 们 的 目标 是 后 PC 时 代 的 标志 性 产品 。 
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市 志 个 人 移动 设备 
功 耗 ; 2W | | 130W 

时 钟 频率 . 1GHz 2. 66GHz 

核 “ 芯 片 | 1 4 

浮 点 无 | 有 

多 发 射 动态 动态 

峰值 指令 数 /周期 | 这 4 

流水 线 级 数 14 14 

流水 线 调 度 静态 顺序 动态 乱 序 猜测 执行 

分 支 预 测 

1 级 cache/ 核 32KiB 指令 ，32KiB 数据 32KiB 指令 ，32KiB 数据 











2 级 cache/ 核 128 ~1 024KiB 256KiB 


3 级 cache (共享 ) 2~8MiB | 
图 4-74 ARM Cortex- A8 和 Intel Core i7 920 处 理 器 的 特点 


















4. 11.1 ARM Cortex-A8 


ARM Cortex- A8 处 理 器 主 频 为 1GHz， 具 有 14 级 流水 线 。 它 采用 动态 多 发 射 技术 ， 每 个 时 
钟 周期 可 以 发 射 两 条 指令 ， 其 流水 线 为 静态 顺序 流水 线 ， 指 令 发 射 、 执 行 和 提交 顺序 执行 。 流 
水 线 包 含 取 指令 、 指 令 译 码 和 执行 三 个 阶段 。 图 4-75 给 出 了 流水 线 的 整体 情况 。 

F0 Fl F2 DO DI D2 D3 D4 E0 E1 E2 E3 E4 ES 


分 支 误 预测 开销 
三 13 个 时 钟 周期 指令 执行 和 取 数 / 存 数 








图 4-75 ”A8 的 流水 线 。 前 端的 三 个 流水 级 为 12 人 口 的 指令 预 取 缓存 取 人 指令 。 地 址 产生 单元 ( AGU) 
使 用 一 个 分 支 目标 缓存 (BTB) 、 全 局 历史 缓存 (GHB) 和 返回 栈 (RS) 进行 分 支 预测 以 保持 
预 取 队列 满 状态 。 指 令 译 码 有 5 个 流水 级 ， 指 令 执行 有 6 个 流水 级 
前 端的 三 个 流水 级 每 次 取 和 人 两 条 指令 ， 从 而 使 得 能 够 保存 放 12 条 指令 的 预 取 缓 存 维持 满 
状态 。 它 使 用 了 一 个 两 级 的 分 支 预测 器 ， 其 中 包含 了 一 个 512 人 口 的 分 支 目标 缓存 、4096 入 口 
的 全 局 历史 缓存 和 一 个 用 于 预测 未 来 返回 操作 的 8 人 口 的 返回 栈 。 当 分 支 预 测 错误 时 清空 流水 
线 ， 导 致 13 个 时 钟 周 期 的 误 预 测 开销 。 
译 码 阶段 的 5 个 流水 级 确定 一 对 指令 间 是 否 存 在 可 导致 顺序 执行 的 相关 ， 并 且 确 定 将 指令 
送 往 哪 条 执行 流水 线 。 
指令 执行 阶段 的 6 个 流水 级 提供 了 一 条 用 于 load 和 store 指令 的 流水 线 、 两 条 算术 操作 流 
水 线 ， 其 中 只 有 第 一 对 可 以 处 理 乘法 。 指 令 对 中 的 任何 一 条 指令 都 可 以 发 射 到 load- store 流水 
线 。 三 条 流水 线 间 在 执行 级 具有 全 旁 路 机 制 。 
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图 4-76 给 出 了 A8 在 使 用 从 SPEC2000 基准 程序 中 衍生 出 来 的 一 个 小 版 本 程序 集 的 CPI。 虽 
然 理想 的 CPI 是 0.5, 但 是 这 里 最 好 情形 只 有 1.4， 一 般 情形 是 2.0， 而 最 差 情形 是 5.2。 在 一 
般 情形 下 ，80% 的 流水 线 阻塞 是 源 于 冒险 ，20% 源 于 存储 层次 。 流 水 线 阻塞 是 由 分 支 误 预测 、 
结构 冒险 和 指令 对 间 的 数据 相关 造成 的 。 由 于 A8 是 静态 流水 线 ， 使 用 编译 器 来 尽 可 能 避免 结 
构 冒 险 和 数据 相关 。 


6.00 











存储 层次 阻塞 
5.00 羡 流水 线 阻塞 =— 
苇 理想 CPI 




















twolf bzip2 gzip parser gap Pperlbmk gcc crafty vpr vortex eon mcf 


图 4-76 ”Minnespec 基准 测试 程序 在 ARM Cortex- A8 上 的 CPI，Minnespec 是 SPEC2000 的 一 个 简化 版 本 。 
这 些 基 准 程序 使 用 更 小 的 输入 集 使 运行 时 间 减 少 几 个 数量 级 。 小 的 输入 集 极 大 地 低估 了 存储 层 
次 对 CPI 的 影响 ( 见 第 5 章 ) 
0 精 解 ”Cortex- A8 是 一 个 支持 ARMv7 指令 集 的 可 配置 内 核 。 它 以 IP (Intellectual Property ， 
知识 产权 ) 核 方 式 交付 使 用 。IP 核 是 嵌入 式 、 个 人 移动 设备 和 相关 市 场 中 用 于 交付 的 主 
要 形式 ; 数 十 亿 的 ARM 和 MIPS 处 理 器 都 是 由 这 种 上 核 产 生 的 。 
注意 下 核 与 Intel i7 多 核 计算 机 中 的 核 不 同 。 一 个 亿 核 (自身 可 能 就 是 多 核 ) 的 设 
计 目 标 是 与 其 他 逻辑 集成 在 一 起 〈 因 此 是 一 个 芯片 的 “核心 ") 形成 一 个 对 某 种 应 用 优化 
的 处 理 器 ， 这 里 其 他 逻辑 包括 专用 处 理 器 (例如 视频 编 解 码 器 ) 、1/O 接口 和 存储 器 接口 。 
虽然 处 理 器 核 几 乎 相同 ， 但 最 终 的 芯片 可 能 有 许多 不 同 。 一 个 参数 就 是 L2 cache 的 容量 ， 
它 在 不 同 的 应 用 中 的 差别 可 以 高 达 8 倍 。 


4.11.2 lIntel Core i7 920 


x86 采用 了 复杂 的 流水 线 技术 ， 在 其 14 级 流水 线 中 综合 使 用 了 动态 多 发 射 、 乱 序 执行 和 推 
测 执 行 的 动态 流水 线 调度 技术 。 正 如 第 2 章 中 提 到 的 ， 处 理 器 依然 面临 着 实现 复杂 x86 指令 集 
的 挑战 。Intel 取 入 x86 指令 ， 将 其 翻译 为 类 MIPS 指令 ，Intel 称 之 为 “ 微 操 作 ”。 微 操作 由 复 
杂 的 基于 推测 执行 的 动态 调度 流水 线 执行 ， 该 流水 线 每 个 时 钟 周 期 最 多 可 执行 6 个 微 操 作 。 本 
节 集 中 讨论 微 操作 流水 线 。 

当 我 们 考虑 复杂 的 动态 调度 处 理 器 的 设计 时 ， 功 能 单元 、cache 和 寄存 器 堆 、 指 令 发 射 和 
整个 流水 线 控制 的 设计 将 混在 一 起 ， 使 得 把 数据 通路 和 流水 线 分 开 变 得 很 困难 。 因 此 ， 许 多 工 
程 师 和 研究 人 员 使 用 术语 微 体系 结构 (microarchitecture) 来 描述 处 理 器 内 部 体系 结构 的 细节 。 


人 ” 微 体 系 结构 : 处 理 器 的 组 织 ， 包 括 主要 的 功能 单元 及 它们 的 互 连 关系 与 流水 线 控制 。 


Intel Core i 使 用 重 排序 缓冲 区 和 寄存 器 重 命名 技术 来 解决 反 相 关 和 推测 错误 。 寄 存 器 重 
命名 技术 显 式 地 将 处 理 器 中 的 体系 结构 寄存 器 (architectural register) (在 64 位 版 本 的 x86 体系 





结构 中 是 16 个 ) 重 命名 为 一 组 更 大 的 物理 寄存 器 集合 。Core i7 使 用 寄存 器 重 命名 技术 来 消除 
反 相 关 。 寄 存 器 重 命名 需要 处 理 器 维护 体系 结构 寄存 器 和 物理 寄存 器 之 间 的 映射 关系 ， 要 能 指 
出 哪个 物理 寄存 器 才 是 某 个 体系 结构 寄存 器 的 最 新 备份 。 通 过 跟踪 已 经 发 生 的 重 命名 ， 寄 存 器 
重 命名 提供 了 另 一 种 推测 错误 时 的 恢复 方法 : 简单 地 撤销 所 有 第 一 条 推测 错误 指令 后 建立 的 所 
有 映射。 这 会 使 处 理 器 的 状态 返回 到 最 后 一 条 正确 执行 的 指令 处 ， 并 保持 结构 寄存 器 与 物理 寄 
存 器 之 间 的 正确 映射 关系 -。 


了 体系 结构 寄存 器 : 处 理 器 中 的 可 见 寄存 器 。 如 在 MIPS 中 ， 有 32 个 整数 寄存 器 和 16 个 浮 
点 寄存 器 是 可 见 的 - 


图 4-77 给 出 了 Core i7 的 整体 组 合 和 流水 线 结构 。 下 面 是 一 条 x86 指令 的 执行 需要 经 历 的 8 
个 阶段 。 

1) 取 指 令 一 一 处 理 器 使 用 一 个 多 级 分 支 目 标 缓冲 器 在 速度 和 预测 准确 性 方面 做 平衡 。 另 
外 还 有 一 个 返回 地 址 栈 用 于 加 速 函 数 返 回 。 误 预测 将 导致 15 个 周期 的 开销 。 取 指 部 件 使 用 预 
测 地 址 从 指令 cache 中 取 入 16 字 节 

2) 这 16 字 节 放 入 预 译 码 指令 缓冲 器 一 一 预 译 码 阶段 将 这 16 字 节 转换 为 独立 的 x86 指令 。 
因为 x86 指令 长 度 可 以 是 1~15 字 节 不 等 ， 预 译 码 操 作 必 须 扫描 多 个 字 节 以 确定 指令 长 度 ， 所 
以 预 译 码 操作 非常 复杂 。 每 条 x8 指令 放 人 一 个 18 入 口 的 指令 队列 。 

3) 微 操 作 译 码 一 一 每 条 x86 指令 被 翻译 为 微 操 作 。 有 三 个 译 码 器 将 x86 指令 直接 翻译 为 
一 个 微 操 作 。 而 对 于 具有 复杂 语法 功能 的 x86 指令 ， 则 使 用 一 个 微 代 码 引擎 产生 一 个 微 操 作 序 
列 ; 它 可 以 在 每 个 周期 生成 4 个 微 操 作 直到 必需 的 微 操作 序列 生成 为 止 。 这 些微 操作 按照 x86 
指令 顺序 放 人 28 入 口 的 微 操 作 缓 冲 器 。 

4) 微 操 作 缓 冲 器 执行 循环 流 检测 一 一 如 果 有 一 个 小 的 指令 序列 ( 少 于 28 条 指令 或 长 度 小 
于 256 字 节 ) 包含 一 个 循环 ,循环 流 检测 器 将 识别 该 循环 ， 并 直接 从 缓冲 器 中 发 射 微 操 作 ， 从 
而 减少 了 指令 预 取 和 指令 译 码 。 

5) 执行 基本 指令 发 射 一 一 在 将 微 操作 发 射 到 保留 站 之 前 ， 在 寄存 器 表 中 查找 寄存 器 位 置 、 
对 寄存 器 进行 重 命 名 、 分 配 重 排序 缓冲 器 入口、 从 寄存 器 或 重 排 序 缓冲 中 取 结 果 。 

6) i7 使 用 一 个 被 6 个 功能 单元 共享 的 36 入 口 的 集中 式 保留 站 。 在 每 个 周期 内 最 多 可 以 向 
功能 单元 分 派 6 个 微 操 作 。 

7) 各 个 功能 单元 执行 微 操 作 ， 执 行 结果 不 但 送 往 寄 存 器 提交 部 件 ， 在 已 知 指令 将 不 再 预 
测 的 情况 下 更 新 寄存 器 状态 ， 还 可 送 往 任何 一 个 等 待 的 保留 站 。 重 排序 缓冲 中 与 指令 对 应 的 入 
口 标记 为 完成 。 

8) 当前 面 的 一 条 或 多 条 指令 已 经 被 标记 为 完成 ， 则 执行 寄存 器 提交 部 件 中 未 决 的 写 操作 ， 
指令 从 重 排序 缓冲 器 中 移 走 。 


著 | 精 解 第 二 步 和 第 四 步 中 的 硬件 能 够 将 操作 进行 合并 ， 从 而 减少 需要 执行 的 微 操 作 的 数 
量 。 第 二 步 中 的 宏 操 作 合并 进行 x86 指令 的 合并 ,例如 将 比较 后 面 紧 跟 一 个 分 支 合并 成 一 
个 操作 。 第 四 步 中 的 微 操作 合并 将 load/ ALU 操作 和 ALU/store 之 类 的 微 操作 对 进行 合并 ， 
并 将 它们 发 射 到 一 个 保留 站 中 (在 这 里 它们 依旧 可 以 独立 发 射 )， 从 而 提高 了 缓冲 器 的 利 
用 率 。 在 研究 微 操作 合并 和 宏 操作 合并 在 内 的 Intel 核 体系 结构 时 ，Bird 等 [2007] 发 现 
微 操 作 合 并 对 性 能 影响 很 小 ， 而 宏 操 作 合 并 似乎 对 整数 性 能 有 适度 的 正面 影响 ， 对 浮 点 性 
能 影响 很 小 。 
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图 4-77 包含 存储 部 件 的 Core 六 流水 线 结构 。 流 水 线 总 深度 为 14 级 ， 误 预测 的 代价 是 17 个 时 钟 周期 。 
该 设计 可 以 缓存 48 个 load 操作 和 32 个 store 操作 。6 个 相关 部 件 在 每 个 时 钟 周期 可 以 开始 执行 
一 个 RISC 操作 


4. 11. 3 Intel Core i7 920 的 性 能 


图 4-78 给 出 了 每 个 SPEC2006 基准 程序 在 Intel Core i7 上 的 CPI。 虽 然 理 想 的 CPI 是 0. 25， 
但 是 最 佳 情况 是 0.44, 平均 情况 是 0.79， 而 最 差 情况 只 有 2. 67。 
在 动态 乱 序 执行 流水 线 中 ,很 难 区 分 流水 线 阻塞 和 访 存 阻塞 ， 但 是 我 们 却 能 有 效 地 区 分 分 
支 预测 和 推测 执行 。 图 4-79 显示 了 分 支 误 预测 的 比例 和 与 所 有 的 微 操作 分 派 相 关 的 工作 中 未 
提交 〔 即 它们 的 结果 被 取消 ) 的 比例 (使 用 分 派 进 入 流水 线 的 微 操作 数量 衡量 ) 。 误 预测 的 最 
小 值 、 平 均值 和 最 大 值 分 别 是 0% 、2% 和 10% 。 对 于 浪费 的 工作 ， 分 别 是 1% 、18% 和 39% 。 
浪费 的 工作 在 有 些 情况 下 与 误 预测 率 相 匹配 ， 例 如 gobmk 和 astar。 在 许多 情况 下 ， 例 如 
349] mcf， 浪 费 的 工作 的 比例 相对 要 大 于 误 预 测 比例 。 这 种 差别 可 能 来 源 于 存储 器 行为 。 只 要 在 访 存 
时 保留 站 有 足够 的 空间 ，mef 具有 很 高 的 数据 cache 缺失 率 ， 在 误 预 测 时 刻 分 派 许多 条 指令 。 当 最 


终 确定 推测 执行 许多 指令 中 的 一 个 分 支 是 误 预 测 时 ， 与 所 有 这 些 指令 相关 的 微 操作 将 被 清除 。 
ME 
总 ”理想 CPI 07 





六 


2 % 
oe RS i 了 :人 AS $$ A 心 
xX 2 Sy Re $ EE 
BS s 他 
图 4-78 在 Intel Core i7 920 上 运行 SPEC2006 整数 基准 程序 的 CPI 
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图 4-79 在 Intel Core i7 920 上 运行 SPEC2006 整数 基准 程序 时 ， 分 支 误 预测 的 比例 
和 无 效 的 推测 所 浪费 的 工作 的 比例 


邯 | 理解 程序 性 能 Intel Core i7 同时 使 用 一 个 14 级 的 流水 线 和 激进 的 多 发 射 来 获取 高 性 能 。 
在 保持 背 对 背 操作 低 延 迟 的 同时 ， 也 消除 了 数据 依赖 的 影响 。 对 运行 在 这 个 处 理 器 上 的 程 
序 而 言 ， 最 严重 的 潜在 性 能 瓶颈 在 哪里 呢 ? 下 面 的 列表 包含 了 一 些 潜在 的 性 能 问题 ， 最 后 
三 个 问题 在 任何 高 性 能 流水 线 处 理 器 中 都 会 以 某 种 形式 出 现 。 

。 使 用 了 不 能 映射 成 几 条 简单 微 操作 的 x86 指令 。 

。 难于 预测 的 分 支 ， 会 导致 预测 错误 时 的 阻塞 和 推测 失败 时 的 重启 。 

。 长 依赖 一 一 典型 情况 是 执行 时 间 很 长 的 指令 或 存储 器 层次 一 一 这 会 导致 阻塞 。 
。 存储 器 访问 延迟 增 大 〈 见 第 5 章 ) 将 导致 的 处 理 器 阻塞 。 
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4. 12 ”运行 更 快 : 指令 级 并 行 和 和 矩阵 乘法 


回 到 第 3 章 的 DGEMM 的 例子 ， 我 们 可 以 看 到 通过 循环 展开 使 得 多 发 射 乱 序 执行 处 理 器 有 
更 多 的 指令 用 于 调度 ， 从 而 对 指令 级 并 行 有 影响 。 图 4-80 给 出 了 图 3-23 中 程序 的 循环 展开 版 
本 ， 图 3-23 包含 了 使 用 C 循环 体 的 特点 生成 的 AVX 指令 。 








1 #include <x86intrin.h> 

2 #define UNROLL (4) 

3 

4 void dgemm (int n, double* A, double* B, double* C) 
§ 

6 for ( int i = 0; i < n; i+=UNROLL*4 ) 

7 For ¢ tmnt j= Oj <& nid i 

8 __m256d c[4]; 

9 for ( int x = 0; x < UNROLL; x++ ) 

10 c[x] = _mm256_load_pd(C+i+x*4+j*n ); 

11 

12 fort Tmt Ks Qs kk WE KE 

13 { 

14 _m256d b = _mm256_broadcast_sd(B+k+j*n); 
15 for (int x = 0; x < UNROLL; x++) 

16 c[x] = _mm256_add_pd(c[x], 

1.7 mm256_mul_pd(_mm256_load_pd(At+n*k+x*4+i ), b)); 
18 } 

19 

20 for ( int x = OQ: xX < UNROLL: ++ ) 

21 _mm256_store_pd(C+i+x*4+j*n, c[x]); 

22 } 

23 } 














图 4-80 使 用 C 循环 体 特点 为 x86 生成 AVX 子 字 并 行 指令 的 优化 的 DGCEMM C 语言 版 本 (图 3-23) 和 使 
用 循环 展开 开发 指令 级 并 行 。 图 4-81 给 出 了 使 用 编译 器 产生 的 内 循环 的 汇编 语言 ， 将 3 个 for 
循环 体 进行 展开 以 显示 指令 级 并 行 
与 前 面 的 图 4-71 中 的 循环 展开 的 例子 一 样 ， 我 们 将 循环 展开 4 次 (在 C 代码 中 我 们 使 用 
常数 UNROLL 来 控制 我 们 希望 展开 的 次 数 ) 。 与 图 3-23 中 手工 将 C 循环 中 每 个 循环 体 复制 4 份 
不 同 ， 我 们 可 以 依赖 于 gec 编译 器 的 - 03 优化 选项 来 做 展开 。 我 们 将 每 个 循环 体 使 用 一 个 简单 
的 -for 循环 包 起 来 形成 4 个 迭代 (第 9、14 和 20 行 )， 将 图 3-23 中 的 向 量 co 使 用 一 个 4 元 素 
数组 c[ ] (第 8、10、16 和 21 行 ) 替换 。 
图 4-81 给 出 了 展开 后 的 汇编 语言 代码 。 正 如 所 期 望 的 一 样 ， 图 3-24 中 的 每 条 AVX 指令 在 
图 4-81 中 有 4 个 版 本 ， 只 有 一 个 例外 。 因 为 在 循环 中 ,我 们 可 以 反复 使 用 寄存 器 $ ymm0 中 的 
B 元 素 的 4 个 副本 ， 所 以 我 们 只 需要 vbroadcasta 指令 的 一 个 副本 。 因 此 ， 图 3-24 中 的 5 条 
AVX 指令 变 成 了 图 4-81 中 的 17。 另 外 ， 虽 然 常 数 和 地 址 根据 循环 展开 进行 变化 ，7 条 整数 指 
令 在 两 种 情况 下 没有 变化 。 所 以 ， 即 使 循环 展开 了 4 次 ， 循 环 体 中 的 指令 数目 只 是 翻 倍 : 由 12 
条 变 为 24 条 。 
图 4-82 给 出 了 使 用 DGEMM 计算 32 x32 的 矩阵 从 未 优化 AVX 到 使 用 循环 展开 的 AVX 时 
性 能 的 提升 情况 。 可 以 看 出 ， 循 环 展开 使 得 性 能 增加 了 一 倍 以 上 ， 由 6.4GFLOPS 增加 到 了 
14. 6GFLOPS。 相 对 于 图 3-21 的 未 优化 的 DCEMM ， 子 字 并 行 和 指令 级 并 行 共同 作用 获得 了 8. 8 
倍 的 加 速 比 。 
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vmovapd (%rll),%ymm4 # Load 4 elements of C into %ymm4 
mov %rbx,%rax # register %rax = %rbx 

xor %eCXx ,%eCX # _ register %ecx = 0 

vmovapd 0x20(%rll),%ymm3 # Load 4 elements of C into %ymm3 
vmovapd 0x40(%rll) ,%ymm2 # Load 4 elements of C into %ymm2 
vmovapd Ox60(%r11),%ymml # Load 4 elements of C into %ymml 
vbroadcastsd (%rcx,%r9,1),%ymm0 # Make 4 copies of B element 
add $0x8,%rcx # register %rcx = %rcx+8 

vmulpd (%rax) ,%ymmo ,%ymm5 # Parallel mul %ymml,4 A elements 
vaddpd Y%ymm5 ,%ymm4 ,%ymm4 # Parallel %ymm5 ，%ymm4 
vmulpd 0x20(%rax),%ymm0,%ymm5 # Parallel %ymml,4 A elements 
vaddpd %ymm5 ,%ymm3 ,%ymm3 # Parallel %ymm5 ，%ymm3 
vmulpd 0x40(%rax),%ymmn0,%ymmn5 # Parallel %ymml,4 A _ elements 
vmulpd Ox60(%rax),%ymm0,%ymm0 # Parallel %ymml,4 A elements 
add %r8,%rax # register %rax = %rax + %r8 

cmp %r10,%rcx # compare %r8 to %rax 

vaddpd %ymm5 ,%ymm2 ,%ymm2 # Parallel add %ymm5, %ymm2 
vaddpd %ymmo ,%ymml ,%ymm1l # Parallel add %ymm0 ，%ymm1l 

jne 68 <dgemm+0x68> # jump if not %r8 != %rax 

add $0x1,%esi # register % esi =% esi+]1 
vmovapd %ymm4,(%r11) # Store %ymm4 into 4 C elements 
vmovapd %ymm3 ,0x20(%rll) # Store %ymm3 into 4 C elements 
vmovapd %ymm2,0x40(%r11) # Store %ymm2 into 4 C elements 
vmovapd %ymm1l ,0x60(%rll) # Store %ymml into 4 C elements 
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图 4-81 对 图 4-80 中 循环 展开 后 的 C 代码 编译 产生 的 肉 套 循环 体 的 x86 汇编 语言 


16.0T -= 





12.0 和 =- - 
站 80- 对 家 四 ---- - 
右 
.0 Se | 3 a 
re s A i 
未 优化 AVX AVX+ 展 开 
图 4-82 三 个 用 于 计算 32 x32 矩阵 的 DGEMM 版 本 的 性 能 。 相 对 于 图 3-21 中 未 优化 的 代码 ， 
子 字 并 行 和 指令 级 并 行将 性 能 提高 了 近 9 们 


著 | 精 解 如 3.8 节 中 精 解 所 提 到 的 ， 这 些 结果 是 在 Turbo 模式 关闭 情况 下 获得 的 。 如 果 将 Turbo 
模式 打开 ， 与 第 3 章 相同 ， 时 钟 频率 提高 了 3.3/2.6 =1.27 倍 ， 未 优化 的 DGEMM 性 能 将 提 
升 为 2.1GFLOPS，AVX 性 能 将 提升 为 8. 1GFLOPS， 循 环 展 开 后 的 AVS 性 能 将 提升 为 18.6 
GFLOPS。 如 3.8 节 所 述 ， 当 一 个 八 核 芯片 中 只 使 用 一 个 核 时 Turbo 模式 会 很 好 的 工作 。 352 
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oo 精 解 ”虽然 寄存 器 $ymm5 在 第 9~17 行 被 重用 ， 但 是 由 于 Intel Core i7 流水 线 对 寄存 器 进 
行 了 重 命名 ， 因 此 没有 流水 线 阻塞 。 


车 | 小 测验 
判断 下 列表 述 的 正 误 。 
1.Intel Core 六 使 用 多 发 射流 水 线 直 接 执行 x86 指令 。 
2. A8 和 Core i7 都 使 用 动态 多 发 射 。 
3. Core i 微 体系 结构 中 的 寄存 器 比 x86 所 要 求 的 更 多 。 
4. Intel Core i7 的 流水 线 级 数 比 早期 Intel Pentium 4 Prescott 的 一 半 还 少 ( 见 图 4-73 ) 。 


避 4. 13 高 级 主题 : 通过 硬件 设计 语言 描述 和 建 模 流 水 线 来 介绍 数字 设计 以 及 
更 多 流水 线 示例 

现代 数字 设计 是 用 硬件 描述 语言 和 现代 的 计算 机 辅助 综合 工具 完成 的 ， 其 中 综合 工具 能 使 
用 库 和 逻辑 综合 将 描述 转化 为 具体 的 硬件 设计 。 关 于 这 些 语言 和 它们 在 数字 设计 中 的 使 用 有 相 
关 书 籍 说 明 。 本 节 (在 配套 网 站 上 ) 仅 进行 简单 的 介绍 ， 并 展示 如 何 用 一 种 硬件 设计 语言 
(Verilog) 分 别 从 行为 级 和 可 综合 级 描述 MIPS 控制 。 接 着 还 提供 了 用 Verilog 描述 的 MIPS 五 级 
流水 线 行为 级 模型 。 最 初 的 模型 忽略 了 冒险 ， 随 后 增加 的 部 分 着 重 于 支持 旁 路 、 数 据 冒 险 和 分 
支 冒险 所 做 的 改变 。 

我 们 接着 提供 了 大 量 使 用 单 时 钟 周期 图 形 化 流水 线 表示 的 示意 图 ， 以 帮助 读者 更 好 地 理解 
执行 一 连 串 MIPS 指令 时 流水 线 的 工作 细节 。 


4. 14 ” 雇 误 与 陷阱 


廖 误 : 流水 线 是 一 种 简单 的 结构 。 | 
本 书证 明了 正确 设计 流水 线 必须 非常 着 慎 。 我 们 的 男 一 本 教程 《Computer Architecture: A 
Quantitative Approach》 的 第 1 版 尽管 经 过 了 上 百人 的 校对 ， 并 且 曾 经 在 18 个 大 学 的 课堂 上 使 用 
过 ， 它 仍然 有 一 个 流水 线 方面 的 错误 。 直 到 有 人 根据 该 书 设计 处 理 器 时 才 发 现 了 这 个 错误 。 用 
Verilog 来 描述 一 个 如 Intel Core i7 的 流水 线 需 要 几 千 行 代码 ， 从 中 可 以 看 出 流水 线 的 复杂 性 ， 
因此 设计 流水 线 必 须 非常 小 心 。 
廖 误 : 流水 线 概念 的 实现 与 工艺 无 关 。 
当 芯 片上 晶体 管 的 数量 和 速度 决定 五 级 流水 线 是 最 好 的 解决 方案 时 ， 延 迟 分 支 ( 见 4.3 节 
的 精 解 ) 是 一 种 简单 的 控制 冒险 的 方法 。 但 对 于 长 流水 线 、 超 标量 执行 和 动态 分 支 预测 ， 延 迟 
分 支 就 成 为 多 余 的 方法 了 。 在 20 世纪 90 年代 初期 动态 流水 线 调度 需要 耗费 大 量 资源 并 且 无 
法 得 到 很 好 的 性 能 ， 但 随 着 晶体 管 的 预算 持续 加 倍 和 逻辑 电路 变 得 比 存储 器 更 快 ， 多 个 功能 单 
元 和 动态 流水 线 变 得 更 加 实用 。 当 今 ， 由 于 要 考虑 功 耗 问 题 ， 因 此 不 能 采用 太 激 进 的 设计 。 
陷阱 : 没有 考虑 指令 集 的 设计 反 过 来 会 影响 流水 线 。 
许多 流水 线 中 遇 到 的 困难 都 是 由 指令 集 的 复杂 性 造成 的 ， 例 如 : 
。 指令 长 度 和 指令 运行 时 间 变 化 太 大 会 导致 各 流水 级 的 不 均衡 ， 从 而 阻碍 了 某 个 流水 级 
的 运行 ， 而 且 它们 还 会 使 冒险 检测 的 实现 复杂 化 。 这 个 问题 已 经 解决 ， 最 初 在 20 世纪 
80 年 代 后 期 的 DEC VAX 8500 中 ， 采 用 了 微 操 作 和 微 流 水 线 的 方案 ， 正 如 今天 的 Intel 
Core i7 所 采用 的 一 样 。 当 然 ， 在 微 操作 和 实际 指令 间 的 转化 和 一 致 性 维护 上 ， 开 销 依 
然 是 存在 的 。 
。 复杂 的 寻 址 模式 可 能 引起 很 多 问题 。 更 新 寄存 器 的 寻 址 模式 会 使 冒险 的 检测 复杂 化 。 而 需 
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要 多 次 访问 存储 器 的 寻 址 模式 会 使 流水 线 的 控制 复杂 化 ， 并 且 难 以 保持 流水 线 平稳 流动 。 

。 最 好 的 例子 大 概 是 DEC Alpha 和 DEC NVAX。 通 过 比较 可 以 看 到 ，Alpha 的 新 指令 集 使 
得 它 的 性 能 是 DEC NVAX 性 能 的 两 倍 。 另 一 个 例子 是 ，Bhandarkar 和 Clark [1991] 使 
用 SPEC 基准 测试 程序 比较 了 MIPS M/2000 和 DEC VAX 8700， 他 们 得 到 了 如 下 结论 : 
尽管 MIPS MA/2000 执行 了 更 多 的 指令 ， 但 是 VAX 的 平均 时 钟 周 期 数 是 MIPS 的 2.7 售 ， 
所 以 总 体 上 MIPS 更 快 一 些 。 


4. 15 本章 小 结 


基 正 十 之 八 九 体现 在 恰当 的 时 机 。 
一 一 半 国 谤 语 

在 这 一 章 我 们 看 到 ， 处 理 器 的 数据 通路 和 控制 通路 的 设计 ， 可 以 从 指令 集 系 统 和 对 工艺 基 
本 特性 的 理解 开始 。 在 4.3 节 ， 我们 看 到 了 在 指令 集体 系 结构 确定 和 决定 使 用 单 周期 实现 的 基 
础 上 ， 如 何 构造 MIPS 处 理 器 的 数据 通路 。 当 然 ， 背 后 的 工艺 也 影响 许多 设计 决策 ， 如 数据 通 
路 中 哪些 部 件 可 用 ， 以 及 单 周 期 实现 是 否 有 意义 等 。 

流水 线 提高 了 吞吐 率 ， 但 不 能 提高 指令 的 内 在 执行 时 间 (指令 延迟 (instruction latency ) ) ; 
对 某 些 指令 而 言 ， 指 令 延 迟 与 单 周期 实现 的 延迟 类 似 。 多 发 射 增加 了 额外 的 允许 每 个 时 钟 周期 
发 射 多 条 指令 的 数据 通路 硬件 ， 但 是 却 增加 了 有 效 延 迟 。 为 了 减少 简单 的 单 周期 实现 数据 通路 
的 时 钟 周期 ， 提 出 了 流水 线 技术 。 相 比 之 下 ， 多 发 射 关 注 于 减少 每 条 指令 的 时 钟 周 期 数 
(CPI) 。 


指令 延迟 : 执行 一 条 指令 所 真正 花费 的 时 间 。 


流水 线 和 多 发 射 都 试 着 开发 指令 级 并 行 。 开 发 更 高 指令 级 并 行 的 主要 限制 因素 是 存在 数据 
相关 和 控制 相关 。 在 软 硬 件 上 都 使 用 预测 来 调度 和 推测 ， 是 降低 相关 带 来 影响 的 主要 手段 。 

我 们 展示 了 将 DGEMM 的 循环 展开 4 次 来 开发 指令 级 并 行 ， 利 用 Core 这 的 乱 序 执行 机 制 可 
使 性 能 提升 一 倍 以 上 。 

20 世纪 90 年 代 中 期 我 们 开始 使 用 更 长 的 流水 线 、 多 发 射 和 动态 调度 ， 这 些 技 术 帮 助 我 们 
维持 了 从 20 世纪 80 年 代 早期 以 来 每 年 60% 的 处 理 器 性 能 增长 速度 。 正 如 第 1 章 中 所 提 到 的 ， 
这 些微 处 理 器 依旧 使 用 顺序 执行 程序 模型 ,但 是 它们 最 终 会 遇 到 功 耗 墙 。 因 此 ， 工 业界 被 迫 转 
向 在 更 粗 粒 度 上 开发 并 行 性 的 多 处 理 器 (这 是 第 6 章 的 主题 )。 这 种 趋势 也 迫使 设计 者 们 对 20 
世纪 90 年 代 中 期 一 些 发 明 的 功 耗 -性 能 含义 重新 进行 评价 ， 其 结果 是 在 最 新 的 微 体系 结构 中 
使 用 了 更 简单 而 不 是 复杂 的 流水 线 。 

为 了 维持 通过 并 行 处 理 器 带 来 的 计算 性 能 提高 ，Amdahl 定律 预言 了 系统 中 的 其 他 部 件 会 
成 为 瓶颈 。 这 个 瓶颈 就 是 下 一 章 要 讨论 的 主题 一 一 存储 器 层次 。 | 


加 4. 16 ”历史 观点 和 拓展 阅读 


这 一 部 分 放 在 配套 网 站 中 ， 讨 论 了 第 一 个 流水 线 处 理 器 、 最 早 的 超标 量 处 理 器 、 乱 序 执行 
与 推测 执行 技术 的 发 展 以 及 同时 期 编译 器 技术 的 发 展 。 


4. 17 练习 题 


4.1 考虑 如 下 指令 : 
指令 : AND Rd,Rs,Rt 
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4.1.1 
4.1.2 
4.1.3 


4.2 


4.2.1 
4.2.2 
4.2.3 

4.3 


4.3.1 
4.3.2 
4.3.3 

4.4 


4.4.1 
4.4.2 


4.4.3 


4.4.4 


4.4.5 


4.4.6 


4.5 


4.5.1 
4.5.2 


4.6 


解释 : Reg[ Rd] =Reg[Rs] AND Reg[ Rt| 

[5] <4.1 > 对 上 述 指令 而 言 ， 图 4-2 中 的 控制 单元 将 产生 哪些 控制 信号 ? 

[5] <4.1> 对 上 述 指令 而 言 ， 将 用 到 哪些 功能 单元 ? 

[10] <4.1 > 哪些 功能 单元 会 产生 输出 ， 但 输出 不 会 被 以 上 指令 用 到 ? 对 以 上 指令 而 言 ， 哪 些 功 
能 单元 不 产生 任何 输出 ? 

图 4-2 中 基本 的 单 周期 MIPS 实现 仅 能 实现 某 些 指令 。 可 以 在 这 个 指令 集中 加 入 新 的 指令 ， 但 决 
定 是 否 加 入 取决 于 给 处 理 器 的 数据 通路 和 控制 通路 增加 的 成 本 和 复杂 度 。 对 下 面 的 新 指令 而 言 ， 
试 回答 下 列 3 个 问题 : 

指令 : LWI Rt,Rd (Rs) 

解释 : Reg[ Rt] =MemL RegLRd] +Reg[ Rs|]] 

[10] <4.1> 对 上 述 指令 而 言 ， 哪 些 已 有 的 单元 还 可 以 被 使 用 ? 

[10] <4.1 > 对 上 述 指令 而 言 ， 还 需要 增加 哪些 功能 单元 ? 

[10] <4.1> 为 了 支持 这 些 指 令 ， 需 要 在 控制 单元 增加 哪些 信号 ? 

当 处 理 器 设计 者 考虑 改进 处 理 器 数据 通路 时 ， 往 往 要 考虑 性 能 与 成 本 的 折 中 。 假 设 我 们 从 图 4-2 
的 数据 通路 出 发 ， 其 中 指令 存储 器 、 加 法 器 、 多 选 嚣 、ALU、 寄 存 器 堆 、 数 据 存储 器 和 控制 单元 
的 延迟 分 别 为 400ps、100ps、30ps、120ps 、200ps 、350ps 和 100ps， 相 应 的 成 本 分 别 为 1000 、30、 
10、100、200、2000 和 500。 

考虑 给 ALU 增加 一 个 乘法 ， 这 将 使 ALU 的 延 时 增加 300ps， 同 时 ALU 的 成 本 增加 600。 这 样 做 的 
结果 是 需要 执行 的 指令 减少 了 5% ， 主 要 是 由 于 不 再 需要 模拟 MUL 指令 。 

[10] <4. 1 > 改进 前 后 的 时 钟 周期 分 别 是 多 少 ? 

[10] <4.1> 改 进 后 将 获得 多 大 的 加 速 比 ? 

[10] <4.1 > 比较 改进 前 后 的 性 价 比 。 

本 练习 题 中 的 题目 假定 在 实现 一 个 处 理 器 的 数据 通路 时 ， 逻 辑 模块 的 延 时 如 下 : 


LMem | Add Mux 









[10] <4.3 > 如 果 处 理 器 只 需 做 连续 取 指 这 一 件 事 〈 见 图 4-6) ,那么 时 钟 周期 是 多 少 ? 

[10] <4.3 > 考虑 一 个 与 图 4-11 类 似 的 数据 通路 , 但 是 假设 处 理 器 只 需 处 理 无 条 件 相 对 跳 转 指 
令 ， 那么 时 钟 周期 是 多 少 ? 

[10] <4.3 > 重 做 练习 题 4. 4. 2， 但 这 次 假设 只 需 处 理 有 条 件 相对 跳 转 指令 。 

本 练习 题 中 剩 下 的 三 个 问题 是 关于 Shift- Left-2 数据 通路 单元 的 : 

[10] <4.3 > 哪些 类 型 的 指令 需要 该 单元 ? 

[20] <4.3 > 对 哪些 类 型 的 指令 而 言 ， 该 单元 位 于 关键 路 径 上 ? 

[10] <4.3 > 假设 仅 需 支持 beq 指令 和 ada 指令 ， 讨 论 该 单元 的 延迟 变化 对 处 理 器 时 钟 周期 的 影 
响 。 假 定 其 他 单元 的 延迟 不 变 。 

本 练习 题 的 问题 中 ， 假 定 没 有 流水 线 阻 塞 ， 各 种 类 型 所 占 的 比例 如 下 : 


ET 


20% 20% 0% 25% 25% 10% 











[10] <4.3 > 数据 存储 器 平均 用 了 多 少时 钟 周期 ? 

[10] <4.3 > 符号 扩展 电路 的 输入 平均 用 了 多 少时 钟 周期 ? 在 未 用 到 该 输入 的 其 他 时 间 ， 符 号 扩 
展 电路 在 做 什么 ? 

在 制造 硅 芯片 时 ,材料 〈 例 如 ， 硅 ) 的 缺陷 和 制造 错误 会 导致 电路 失效 。 一 个 非常 普遍 的 问题 是 
一 根 线 上 的 信号 会 对 相 邻 线 上 的 信和 号 产生 影响 ， 这 被 称 为 串扰 。 有 一 类 串扰 问题 是 这 样 的 ， 某 些 
线 上 的 信号 为 常 值 (如 电源 线 ) ， 该 线 附 近 的 线 也 被 固定 为 0 (stuck-at-0) 或 1 (stuck-at-1)。 下 
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4.6.1 


4.6.2 


4.6.3 


4.6.4 


4.6.5 


4.7 


4.7.1 
4.7.2 
4.7.3 
4.7.4 
4.7.S 
4.7.6 

4.8 


4.8.1 
4.8.2 
4.8.3 


4.8.4 
4.8.5 
4.8.6 


面 的 问题 中 的 缺陷 发 生 在 图 4-24 中 寄存 器 堆 的 写 寄存 器 输入 端的 第 0 位 。 
[10] <4.3, 4 4> 假设 这 样 测试 处 理 器 的 缺陷 ; 先 给 PC、 寄 存 器 堆 、 数 据 和 指令 存储 器 中 设置 
一 些 值 (可 以 自己 选择 ) ,执行 一 条 指令 ， 然 后 读 出 PC、 寄 存 器 堆 和 存储 器 中 的 值 ， 最 后 检查 这 
些 值 以 判断 处 理 器 中 是 否 存在 缺陷 。 你 能 设计 一 个 方案 检查 该 信号 上 是 否 有 固定 为 0 缺陷 吗 ? 
[10] <4.3, 4.4> 重 做 练习 题 4 6. 1， 这 次 检查 固定 为 1 缺陷 。 你 能 只 设计 一 个 测试 方案 同时 检 
查 固定 为 0 缺陷 和 固定 为 1 缺陷 吗 ” 如 果 可 以 ， 请 解释 如 何 实现 ， 如 果 不 能 ， 请 说 明理 由 。 
[60] <4.3，4.4 > 如 果 我 们 知道 一 个 处 理 器 在 该 信号 上 有 一 个 固定 为 1 缺陷 ， 它 还 能 用 吗 ” 为 了 
使 这 个 处 理 器 仍然 可 用 ， 我 们 必须 将 原来 能 在 正常 MIPS 处 理 器 上 运行 的 程序 作 一 些 变换 ， 使 之 
可 以 在 这 个 处 理 器 上 运行 。 假 设 指令 存储 器 和 数据 存储 器 都 很 大 ， 足 够 容纳 变换 后 的 程序 。 提 
示 : 将 因为 该 缺陷 不 能 用 的 指令 替换 为 一 系列 能 用 的 指令 ， 这 一 系列 指令 与 原 指令 功能 相同 。 
[10] <4.3, 4.4 > 重 做 练习 题 4 6.1， 这 次 检测 控制 信号 MemRead 是 否 存在 该 缺陷 ?如 果 
RegDst 控制 信号 为 0 时 ，MemRead 控制 信号 为 0， 则 有 缺陷 ， 否 则 无 缺陷 。 
[10] <4.3, 4 4 > 重 做 练习 题 4 6.4， 这 次 检测 控制 信号 Jump 是 否 存在 该 缺陷 ? 如 果 RegDst 控 
制 信号 为 0 时 Jump 控制 信号 为 0， 则 有 缺陷 ， 否 则 无 缺陷 。 
本 练习 题 将 讨论 单 周期 数据 通路 中 指令 的 执行 细节 。 本 练习 题 中 的 问题 基于 单 周 期 处 理 器 取 和 如 
下 的 指令 字 后 的 一 个 时 钟 周 期 ; 
10101100011000100000000000010100 

假定 数据 存储 器 是 全 0 且 处 理 器 的 寄存 器 在 取 入 以 上 指令 字 的 时 钟 周期 的 开始 时 的 内 容 如 下 : 
Ee i | | a | 

0 = 2 -3 一 4 6 | 


10 8 2 -16 








] <4.4 > 对 该 指令 字 而 言 ， 符 号 扩展 单元 和 左 移 两 位 单元 (图 4-24 的 左上 角 ) 的 输出 是 什么 ? 
[10] <4.4 > 对 该 指令 字 而 言 ，ALU 控制 单元 的 输入 是 什么 ? 
[10] <4.4 > 该 指令 执行 后 的 新 PC 值 是 什么 ?在 图 4-24 中 灰 线 决定 该 新 PC 值 的 路 径 。 
[10] <4.4 > 对 给 定 的 指令 字 和 寄存 器 堆 初 值 ， 给 出 每 个 多 选 器 数据 输出 的 值 。 
[10] <4.4 > 给 出 ALU 和 两 个 加 法 器 数据 输入 的 值 。 
[10] <4.4 > 给 出 寄存 器 堆 所 有 输入 信和 号 的 值 。 
本 练习 题 讨论 流水 线 对 处 理 器 时 钟 周期 的 影响 。 下 面 给 出 了 数据 通路 中 不 同 阶段 的 延迟 情况 : 


som oo 


男 外 ,假定 处 理 器 执行 各 种 指令 的 比率 如 下 面 所 示 : 


RR 


45 反 20% 20% 15% 


[5 








[5] <4.5 > 流水 线 处 理 器 与 非 流 水 线 处 理 器 的 时 钟 周期 分 别 是 多 少 ? 

[10] <4.5 >lw 指 令 在 流水 线 处 理 器 和 非 流水 线 处 理 器 中 的 总 延迟 分 别 是 多 少 ? 

[10] <4.5 > 如 果 可 以 将 原 流水 线 数据 通路 的 一 级 划分 为 两 级 ， 每 级 的 延迟 是 原 级 的 一 半 ， 那 么 
你 会 选择 哪 一 级 进行 划分 ”划分 后 处 理 器 的 时 钟 周期 为 多 少 ? 

[10] <4.5 > 假设 没有 阻塞 和 冒险 , 数据 存储 器 的 利用 率 是 多 少 ( 占 总 周期 数 的 百分比 )? 

[10] <4.5 > 假设 没有 阻塞 和 冒险 ,寄存 器 堆 的 写 寄存 器 端口 的 利用 率 是 多 少 ? 

[30] <4.5 > 假设 一 种 多 周期 的 处 理 器 设计 ， 其 中 每 条 指令 需要 多 个 时 钟 周期 完成 , 但 上 一 条 指 
令 完 成 前 不 取 下 一 条 指令 。 在 这 种 设计 中 ， 指 令 仅 经 过 其 所 需 的 阶段 ( 例如， 存储 指令 仅 需 4 个 
时 钟 周期 ， 因 为 其 不 需要 WB 阶段 )。 比 较 单 周 期 设计 、 多 周期 设计 和 流水 线 设计 三 者 的 时 钟 周 
期 和 总 执行 时 间 。 
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4.9 本 练习 题 讨论 数据 相关 如 何 影响 4.5 节 中 基本 五 级 流水 线 的 运行 。 结 合 下 面 的 指令 序列 完成 
问题 : 
or rl,r2,r3 
or r2,rl,r4 
or Yl Tl 2 
另外 ， 假 定 每 种 相关 旁 路 的 周期 时 间 如 下 : 
250ps 300ps 290ps 
4.9.1 [10] <4.5> 指 出 指令 序列 中 存在 的 相关 及 其 类 型 。 
4.9.2 [10] <4.5 > 假设 该 流水 线 处 理 器 没有 旁 路 ,指出 指令 序列 中 存在 的 冒险 并 加 入 nop 指令 以 消 
除 冒 险 。 
4.9.3 [10] <4.5 > 假设 该 流水 线 处 理 器 中 有 充分 的 旁 路 。 指 出 指令 序列 中 存在 的 冒险 并 加 入 nop 指 
令 以 消除 冒险 。 
4.9.4 [10] <4.5> 该 指令 序列 在 无 卷 路 和 有 充分 的 旁 路 时 ， 总 执行 时 间 分 别 是 多 少 ? 后 者 相对 于 前 
者 的 加 速 比 是 多 少 ? 
4.9.5 [10] <4.5 > 如 果 仅 有 ALU 至 ALU 的 旁 路 (没有 从 MEM 到 EX 的 旁 路 ) ， 如 何 加 入 nop 指令 以 
消除 可 能 的 冒险 ? 
4.9.6 [10] <4.5 > 该 指令 序列 在 仅 有 ALU 至 ALU 的 旁 路 时 ， 总 执行 时 间 分 别 是 多 少 ? 与 无 旁 路 的 情 
况 相 比 ， 加 速 比 是 多 少 ? 
4.10 本 练习 题 将 考查 资源 冒险 、 控 制 冒险 和 指令 集体 系 结构 设计 如 何 影 响 流水 线 的 执行 。 本 练习 题 
中 的 问题 涉及 下 面 的 MIPS 代码 片段 
sw r16,12(r6) 
lw r16,8(r6) 
beq r5,r4,Label # Assume r5!=r4 
add r5,rl,r4 
Sit FS Fr15 ,FF4 
假定 每 个 流水 级 的 延迟 如 下 : 
wo 
200ps 120ps 150ps 190ps 100ps 
4.10.1 [10] <4.5> 假 设 所 有 的 分 支 都 被 正确 预测 (控制 冒险 完全 被 消除 ) 且 没 有 使 用 延迟 时 间 覃 ， 
并 且 只 有 一 个 存储 器 〈 既 存储 指令 又 存储 数据 ) 。 如 果 一 个 时 钟 周期 内 同时 取 指 和 取 数 据 就 会 
发 生 结构 冒险 。 为 保证 前 进 ， 该 冒险 必须 始终 以 有 利于 取 数 指令 的 方式 解决 。 该 指令 序列 在 仅 
有 一 个 存储 器 的 五 级 流水 线 中 执行 的 总 时 间 是 多 少 ? 我 们 知道 插入 nop 指令 可 以 消除 数据 冒 
险 ， 可 以 用 同样 的 方法 消除 这 里 的 结构 冒险 吗 ? 为 什么 ? 
4.10.2 [20] <4.5> 假 设 所 有 的 分 支 都 被 正确 预测 (控制 冒险 完全 被 消除 ) 且 没 有 使 用 延迟 时 间 槽 。 
如 果 我 们 改变 存 取 指 令 的 格式 ， 仅 使 用 寄存 器 (不 含 偏 移 地 址 ) 进行 寻 址 ， 那么 这 些 指 令 不 再 
需要 使 用 ALU。 结 果 是 MEM 级 和 EX 级 可 以 重 倒 成 一 级 ， 整 个 流水 线 也 就 成 为 四 级 。 改 变 该 代 
码 以 适应 上 述 ISA 的 改变 。 假 设 这 个 改变 不 影响 时 钟 周期 ， 对 该 指令 序列 而 言 ， 这 个 改变 造成 
的 加 速 比 是 多 少 ? 
4.10.3 [10] <4.5 > 假设 在 分 支 时 进行 阻塞 是 没有 使 用 延迟 时 间 槽 ， 那 么 在 ID 级 确定 分 支 方向 相对 于 
在 EX 级 确定 分 支 方向 的 加 速 比 是 多 少 ? 
4.10.4 [10] <4.5 > 在 给 定 的 流水 级 延迟 下 ， 重 做 练习 题 4. 10.2， 考 虑 可 能 的 时 钟 周期 变化 。 如 果 EX 


级 和 MEM 级 重 倒 起来， 它们 的 大 部 分 工作 可 以 并 行 执行 。 这 样 重合 后 的 EX/AMEM 级 的 延迟 是 
原来 两 级 的 较 大 者 ， 不 能 并 行 工作 时 延迟 还 要 再 加 20ps。 
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4. 11.1 


4.11.2 
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4.12.1 
4.12.2 


4.12.3 


4.12.4 
4.12.5 


4.12.6 
4.13 
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[10] <4.5 > 在 给 定 的 流水 级 延迟 下 ， 重 做 练习 题 4. 10.3， 考 虑 可 能 的 时 钟 周期 变化 。 假 设 分 
支 方向 判断 从 EX 级 移 到 ID 级 时 ，ID 级 的 延迟 增加 50% ， 而 EX 级 的 延迟 减少 10ps。 
[10] <4.5 > 假设 在 分 支 时 进行 阻塞 且 没 有 使 用 延迟 时 间 槽 ， 如 果 beq 指令 的 地 址 计算 移 到 
MEM 级 ， 时 钟 周期 将 变 为 多 少 ? 该 指令 序列 的 总 执行 时 间 将 变 为 多 少 ? 加 速 比 是 多 少 ? 假设 分 
支 方向 判断 从 EX 级 移 到 MEM 级 时 ，EX 级 的 延迟 减少 20ps， 而 MEM 级 的 延迟 不 变 。 
考虑 下 面 的 循 化 : 
loop:lw rl,0(r1) 

and Tl,r1:r2 

Iw rl,0(rl) 


lw rl,0(r1) 
beq rl,r0,loop 


假定 使 用 了 完美 的 分 支 预测 (没有 控制 冒险 导致 的 阻塞 ) ， 没 有 延迟 槽 ， 流 水 线 支持 完全 旁 路 。 
另外 假定 循环 结束 前 该 循环 迭代 了 很 多 次 。 

[10] <4.6> 画 出 循环 第 三 次 执行 的 流水 线 图 ， 从 取出 循环 的 首 条 指令 开始 至 取出 下 次 循环 的 首 
条 指令 (不 包括 该 次 取 指 ) 结束 。 给 出 这 段 时 间 内 流水 线 中 的 所 有 指令 (不 仅仅 是 第 三 次 循环 
中 的 那些 指令 ) 。 

[10] <4.6 > 在 这 段 时 间 内 有 百 分 之 多 少 五 级 流水 线 都 在 做 有 用 的 工作 ? 

本 练习 题 讨论 流水 线 处 理 器 中 旁 路 的 成 本 /复杂 度 / 性 能 折 中 。 参 考 图 4-45 的 流水 线 数据 通路 ， 
假设 指令 中 有 部 分 存在 RAW (read after write， 写 后 读 ) 数据 相关 。RAW 数据 相关 根据 生成 结 
果 的 流水 级 (EX 或 MEM) 和 使 用 结果 的 流水 级 (1st 意味 着 生成 结果 后 的 第 一 条 指令 ，2nd 意 
味 着 生成 结果 后 的 第 二 条 指令 ) 确认 。 假 设 在 时 钟 周期 的 前 半 部 分 写 寄 存 器 ， 在 后 半 部 分 读 寄 
存 器 ， 这 样 “EX to 3rd” 和 “MEM to 3rd” 相 关 不 会 产生 数据 冒险 。 最 后 假设 无 数据 冒险 时 处 
理 器 的 CPI 为 1。 


仅 EX fo 1 | 仅 MEM to 1*<| 仅 EX to 2 | 公 MENE IO 2 EX tolt 和 MEm to 2 其 他 RAW 相关 


假定 各 级 流水 线 延迟 如 下 。 其 中 EX 级 给 出 了 不 同 旁 路 情况 下 的 延迟 。 


109 9 EX Ex EX 
> EYV / 
【全 旁 路 ) 仅 有 EX/MEM 的 劳 路 |( 仅 有 “(MEM/WB 的 这 路 ) 


150ps | 100ps 120ps 150ps 140ps 130ps 120ps |L100ps 














[10] <4.7 > 如 果 不 使 用 旁 路 ， 会 有 百 分 之 多 少 的 时 钟 周 期 因为 数据 冒险 阻塞 ? 

[5] <4.7 > 如 果 使 用 完全 的 旁 路 〈 旁 路 所 有 可 以 旁 路 的 结果 ) ， 会 有 百 分 之 多 少 的 时 钟 周 期 因 
为 数据 冒险 阻塞 ? 

[10] <4.7 > 假设 不 能 提供 三 输入 多 选 器 (对 完全 的 旁 路 是 必需 的 ) ， 我 们 必须 确定 从 EXAMEM 
流水 线 寄存 器 旁 路 〈 旁 路 下 一 个 周期 ) 还 是 从 MEMAWB 流水 线 寄存 器 旁 路 ( 旁 路 2 个 周期 ) 
更 好 ? 哪 种 方法 会 产生 更 少 的 数据 阻塞 ? 

[10] <4.7 > 对 给 定 的 冒险 概念 和 流水 级 延迟 ， 完 全 的 旁 路 相对 于 无 旁 路 的 加 速 比 是 多 少 ? 

[10] <4.7 > 如 果 加 入 能 消除 所 有 数据 冒险 的 时 间 旅 行 旁 路 ， 其 相对 于 具有 旁 路 机 制 的 处 理 器 的 
加 速 比 是 多 少 ? 假设 在 EX 级 完全 旁 路 的 基础 上 加 入 这 个 还 没 发 明 的 时 间 旅 行 旁 路 的 代价 是 增 
加 100ps 的 延迟 。 

[20] <4.7 > 重 做 练习 题 4. 12.3， 这 次 问 哪 种 方法 会 产生 更 小 的 CPI。 

本 练习 题 讨论 旁 路 、 冒 险 检 测 和 指令 集 设计 之 间 的 关系 。 根 据 下 面 的 指令 序列 回答 下 列 问 题 。 
假设 其 在 一 个 五 级 流水 线 数据 通路 上 执行 。 
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4.14.1 
4.14.2 


4.14.3 


4.14. 4 


4. 14. 5 


4.14.6 


4.15 


add TS ,TZ 
lw r3,4(r5) 
Iw 2,0(n2) 
(oN 
SW r3,0(r5) 


[5] <4 7> 如 果 没 有 旁 路 或 冒险 检测 电路 ， 请 插入 nop 指令 以 保证 正确 执行 。 

[10] <4.7> 重 做 练习 题 4.13.1， 这 次 仅 当 通过 改变 或 重 排序 指令 都 不 能 避免 冒险 时 才 插 入 
nop 指令 。 假设 可 以 使 用 寄存 器 R7 作为 临时 寄存 器 。 

[10] <4.7 > 如 果 处 理 器 中 存在 旁 路 ， 但 忘 了 实现 冒险 检测 单元 (以 为 实现 了 ) ， 代 码 执行 时 会 
发 生 什 么 情况 ? 

[20] <4.7 > 如 果 存 在 旁 路 ， 在 执行 指令 序列 的 前 5 个 时 钟 周期 ， 通 过 图 4-60 中 的 冒险 检测 和 
劳 路 单元 指出 每 个 周期 中 哪些 信号 是 有 效 的 。 

[10] <4.7 > 如果 没 有 旁 路 ， 对 图 4-60 中 的 冒险 检测 单元 来 说 还 需要 哪些 新 的 输入 输出 信号 ? 
以 该 指令 序列 为 例 ， 说 明 为 什么 需要 这 些 信和 号。 

[20] <4.7 > 对 练习 题 4. 13. 5 中 新 的 冒险 检测 单元 来 说 ， 给 出 执行 时 前 5 个 时 钟 周期 中 每 个 周 
期 的 输出 信号 (使 有 效 )。 


本 练习 题 讨论 流水 线 处 理 器 的 延迟 时 间 柳 、 控 制 冒险 和 分 支 执行 之 间 的 关系 。 假 设 下 列 MIPS 代 
码 在 一 个 五 级 流水 线 、 有 完全 旁 路 和 预测 分 支 总 发 生 的 处 理 器 上 运行 。 试 根据 下 面 的 两 个 序列 
回答 下 列 问 题 。 

lw r2,0(r1) 
labell: beq r2,r0,1label2 # not taken once, then taken 

lw r3,0(r2) 

beq r3,r0,1abell # taken 

add r1,r3,rl 


label2: sw rl,0(r2) 

[10] <4.8 > 画 出 该 指令 序列 的 流水 线 执行 图 ， 假 设 没 有 延迟 时 间 覃 而 且 在 EX 级 执行 分 支 。 
[10] <4.8 > 重 做 练习 题 4. 14. 1， 但 是 假设 使 用 了 延迟 时 间 模 。 给 定 的 代码 中 ， 跟 在 分 支 之 后 
的 指令 是 该 分 支 的 延迟 槽 指令 。 

[20] <4. 8 > 不 同 于 需要 一 个 ALU 操作 ， 另 一 种 提前 确定 分 支 方向 的 方法 是 使 用 “bez rd, 1a- 
bel” 和 “bnez rd, label” 之 类 的 条 件 分 支 指令 ， 该 类 条 件 分 支 指令 根据 寄存 器 值 是 否 为 零 
决定 是 否 分 支 。 变 换 原 指令 序列 以 使 用 该 类 条 件 分 支 指令 而 非 bea 指令 。 假 设 寄存 器 $8 © 是 临 
时 寄存 器 ， 并 且 可 以 使 用 R 型 指令 seq (set 让 equal ， 相 等 置 位 ) 。 

4.8 节 说 明了 如 何 把 分 支 执行 提前 到 了 D 级 以 减少 控制 冒险 。 这 个 方法 需要 在 ID 级 增加 一 个 专用 
的 比较 器 ， 如 图 4-62 所 示 。 但 是 这 个 方法 增加 了 ID 级 的 延迟 ， 并 且 需 要 额外 的 淮 路 丈 辑 和 慎 
险 检测 。 

[10] <4.8 > 以 指令 序列 中 第 一 条 分 支 指令 为 例 ， 说 明 图 4-62 中 为 支持 在 ID 级 执行 分 支 应 加 入 
的 冒险 检测 逻辑 。 该 逻辑 需要 检测 什么 类 型 的 冒险 ? 

[10] <4.8 > 对 给 定 的 指令 序列 ， 把 执行 分 支 移 到 ID 级 带 来 的 加 速 比 是 多 少 ? 为 什么 ? 假设 ID 
级 进行 的 额外 比较 不 影响 时 钟 周期 。 

[10] <4.8 > 以 指令 序列 中 第 一 条 分 支 指令 为 例 ， 说 明 为 支持 在 D 级 执行 分 支 应 加 入 的 旁 路 。 
比较 新 旁 路 单元 与 图 4-62 中 旁 路 单元 的 复杂 度 。 

一 个 好 的 分 支 预测 器 有 多 重要 取决 于 条 件 分 支 指令 的 频率 ， 它 与 分 支 预测 器 的 精度 共同 决定 误 
预测 分 支 导致 的 阻塞 时 间 长 得 。 在 本 练习 题 中 ， 假 设 指令 的 动态 执行 频 度 如 下 : 


40% 25% 5% 25% 5% 








日 ” 原 书 为 R8， 有 误 。 一 一 译 者 注 
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4.15.1 


4.15.2 
4.15.3 
4.15.4 


4.15.5 


4.16.5 


4.16.6 


4.17 


4.17.1 


4.17.2 


4.17.3 


4.17.4 





假定 分 支 预测 器 的 精度 如 下 : 


分 支 总 发 生 分 支 总 不 发 生 2 位 预测 高 


45% 55% 85% 





L10] <4.8 > 误 预 测 分 支 导致 的 阻塞 将 增加 CPI。 对 分 支 总 发 生 预 测 器 而 言 ， 误 预测 分 支 将 导致 
CPI 增加 多 少 ? 假设 分 支 方向 在 EX 级 确定 ， 没 有 数据 冒险 且 不 使 用 延迟 时 间 槽 。 

[10] <4.8> 重 做 练习 题 4. 15. 1， 这 次 改 为 分 支 总 不 发 生 预 测 器 -。 

[10] <4.8 > 重 做 练习 题 4. 153. 1， 这 次 改 为 2 位 分 支 预测 器 。 

[10] <4.8 > 对 2 位 分 支 预测 器 而 言 ， 将 一 半分 支 指令 用 ALU 指令 蔡 代 (一 条 ALU 指令 蔡 代 一 
条 分 支 指令 ) 将 获得 的 加 速 比 是 多 少 ? 假设 被 正确 预测 的 分 支 指令 和 被 不 正确 预测 的 分 支 指令 
被 取代 的 概率 相同 - 

[10] <4.8 > 对 2 位 分 支 预测 器 而 言 ， 将 一 半分 支 指令 用 ALU 指令 替代 (两 条 ALU 指令 替代 一 
条 分 支 指令 ) 将 获得 的 加 速 比 是 多 少 ? 假设 被 正确 预测 的 分 支 指令 和 被 不 正确 预测 的 分 支 指令 
被 取代 的 概率 相同 

[10] <4.8 > 有 些 分 支 是 非常 容易 预测 的 。 假 设 80% 的 分 支 指 令 都 是 非常 容易 预测 的 循环 返回 
分 支 ， 那么 2 位 分 支 预 测 器 对 剩 下 的 20% 分 支 指令 的 预测 精度 是 多 少 ? 

本 练习 题 讨 论 不 同 分 支 预测 器 对 给 定 分 支 模式 (如 循环 ) 的 预测 精度 。 给 定 的 分 支 模式 为 : T， 
NT, T, Ty NTs 

15」 <4.8 > 对 该 分 支 模式 ,分 支 总 发 生 预 测 器 与 分 支 总 不 发 生 预 测 器 的 准确 率 分 别 是 多 少 ? 
[5] <4.8 > 对 该 分 支 模式 的 前 4 个 分 支 而 言 ，2 位 分 支 预测 器 的 准确 率 是 多 少 ? 假设 预测 器 的 
初始 状态 与 图 4-63 左下 角 状 态 相同 〈 预测 未 发 生 ) 。 

[10] <4. 8 > 如 果 该 分 支 模式 一 直 重复 下 去 ，2 位 分 支 预测 器 的 准确 率 是 多 少 ? 

[30] <4. 8 > 如 果 该 分 支 模 式 一 直 重 复 下 去 ,设计 一 个 能 取得 最 高 准确 率 的 预测 器 。 这 个 预测 器 
必须 是 一 个 时 序 电路 ， 有 一 个 输出 表示 预测 结果 (1 表示 发 生 , 0 表示 未 发 生 ) ， 除 了 时 钟 和 指 
示 当 前 指令 是 条 件 分 支 指令 的 信号 外 没有 其 他 输入 。 

[10] <4.8 > 如 果 有 一 个 分 支 模式 与 该 分 支 模式 完全 相反 且 一 直 重 复 下 去 ,那么 在 练习 题 
4. 16.4 中 你 设计 的 预测 器 对 这 个 分 支 的 准确 率 是 多 少 ? 

[20] <4. 8 > 重 做 练习 题 4. 16.4， 这 次 你 的 预测 器 最 终 (可 能 需要 一 个 热身 过 程 ) 可 以 同时 完 
美 地 预测 该 分 支 模式 及 完全 相反 的 分 支 模 式 (假设 分 支 模式 一 直 重 复 下 去 ) 。 这 个 预测 器 应 该 
有 一 个 输入 告诉 它 真实 的 分 支 结果 。 提 示 : 这 个 输入 可 以 帮助 预测 器 判断 是 两 个 分 支 模式 中 的 
哪 一 个 。 

本 练习 题 讨论 异常 处 理 对 流水 线 设计 的 影响 。 根据 下 面 两 条 指令 回答 前 三 个 问题 : 


指令 1 外 令 2 


BNE RI1, R2, Label LW RI1, 0(R1) 


[5] <4.9 > 每 条 指令 分 别 可 能 产生 什么 异常 ? 对 每 个 可 能 产生 的 异常 ， 指 出 其 将 在 哪个 流水 线 
级 被 检测 到 。 

[10] <4.9 > 如 果 每 个 异常 都 有 独立 的 处 理 程序 地 址 ， 流水 线 应 该 怎样 设计 才能 处 理 异常 ? 假设 
设计 处 理 器 时 已 知 每 个 异常 处 理 程序 的 地 址 。 

[10] <4.9 > 如 果 第 二 条 指令 紧 跟 第 一 条 指令 从 表 中 取出 , 试 说 明 第 一 条 指令 发 生 异 常 ( 见 练 
习题 4. 17. 1) 时 流水 线 的 运行 情况 。 给 出 从 第 一 条 指令 取 指 开始 到 异常 处 理 程序 第 一 条 指令 完 
成 时 的 流水 线 运 行 图 。 

[20] <4.9 > 在 向 量 异常 处 理 中 ， 异 常 处 理 程序 地 址 表 在 数据 存储 器 的 一 个 固定 位 置 。 改 变 流水 
线 的 实现 以 支持 向 量 异常 处 理 。 重 做 练习 题 4. 17. 3 ， 这 次 使 用 支持 向 量 异 常 处 理 的 流水 线 。 
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4.17.5 


4.18 


4.18.1 


4.18.2 


4.18.3 


4.18.4 
4.18.5 


4.18.6 


4.19 


4.19.1 


4.19.2 
4.19.3 


4.19.4 
4.19.5 


4.19.6 


[15] <4.9 > 我 们 想 要 在 仅 有 一 个 固定 处 理 程序 地 址 的 处 理 器 上 模拟 向 量 异 常 处理 〈 见 练习 题 
4. 17.4) ， 写 出 相应 的 程序 。 提 示 : 这 段 程序 应 识别 异常 类 型 ， 从 异常 向 量 表 中 获得 正确 地 址 ， 
然后 跳 转 到 该 异常 处 理 程序 处 。 
本 练习 题 比 较 单 发 射 和 双 发 射 处 理 器 的 性 能 ， 并 考虑 对 双 发 射 处 理 器 进行 程序 优化 。 根 据 下 表 
的 C 代码 分 别 回答 下 列 问题 。 
fer( t=051!=jsite2) 

blil=alij=a[li+1]; 
在 编写 MIPS 代码 时 ， 假 设 变量 被 保存 在 寄存 器 中 ， 如 下 表 所 示 ， 除 了 空闲 的 寄存 器 ， 其 余 寄 存 
器 都 被 用 来 保存 变量 的 值 ， 因 此 不 能 再 用 作 其 他 用 途 。 


LL 
_s | ww | nm | wm | | om 





R10, RIl1, R12 


[10] <4. 10 > 将 这 段 C 代码 翻译 成 MIPS 代码 。 这 种 翻译 必须 是 直接 的 ， 不 允许 对 代码 进行 重 
排序 以 达到 更 好 的 性 能 。 

[10] <4. 10 > 如 果 循环 仅 执行 两 次 后 就 退出 ， 画 出 练习 题 4. 18. 1 中 MIPS 代码 在 图 4-69 的 双 发 
射 处 理 器 中 执行 的 流水 线 图 。 假 设 处 理 器 能 进行 完美 的 分 支 预测 ， 并 且 一 个 周期 能 取 任 意 两 条 
指令 〈 不 仅仅 是 连续 的 两 条 指令 ) 。 

[10] <4. 10 > 重 排序 练习 题 4. 18. 1 中 的 MIPS 代码 ， 以 在 图 4-69 的 双 发 射 静态 调度 处 理 器 上 获 
得 更 好 的 性 能 。 

[10] <4. 10 > 重 做 练习 题 4. 18. 2， 但 这 次 使 用 练习 题 4. 18. 3 中 的 MIPS 代码 。 

[10] <4. 10 > 从 单 发 射 处 理 器 到 图 4-69 的 双 发 射 处 理 器 ， 性 能 的 加 速 比 是 多 少 ? 在 单 发 射 和 
双 发 射 处 理 器 分 别 运行 练习 题 4. 18. 1 的 代码 ,假设 循环 执行 1 000 000 次 。 与 练习 题 4. 18. 2 
相同 ， 假 设 处 理 器 能 进行 完美 的 分 支 预测 ， 并 且 一 个 双 发 射 处 理 器 在 同一 个 周期 能 取 任 意 两 
[10] <4. 10 > 重 做 练习 题 4. 18.5， 这 次 假设 双 发 射 处 理 器 中 一 条 指令 可 以 是 任意 类 型 的 ， 而 另 
一 条 指令 必须 是 非 存 取 指令 。 

本 练习 题 讨 论 性 能 与 功 耗 的 关系 。 假 设 数据 通路 各 部 件 (指令 存储 器 、 寄 存 器 、 数 据 存储 器 ) 
的 功 耗 如 下 表 所 示 ， 其 他 部 件 的 功 耗 可 以 忽略 。 


指令 存储 读数 据 存储器。 |。 写 数据 存储 吕 
140pJ 60pJ 140p] 120p] 
假定 数据 通路 上 的 部 件 延 迟 如 下 表 所 示 ， 其 他 功能 部 件 的 延迟 可 以 忽略 。 


指令 存储 琳 存 器 读 或 写 数据 存储 读 或 写 


200ps 150ps 90ps 90ps 250ps 








[10] <4.3, 4.6, 4.14 > 在 单 周期 设计 和 五 级 流水 线 设计 中 执行 一 ee 
多 少 ? 

[10] <4.6, 4.14 > 功 耗 消耗 最 大 的 MIPS 指令 是 哪 一 条 ? 执行 这 条 指令 的 功 耗 是 多 少 ? 

[10] <4.6，4. 14 > 如 果 功 耗 是 最 重要 的 约束 ， 应 该 怎样 设计 流水 线 ? 在 这 种 流水 线 下 执行 一 条 
lw 指令 时 的 功 耗 减 小 的 比例 是 多 少 ? 

[10] <4.6, 4.14 > 如 果 像 练习 题 4. 19. 3 中 那样 设计 流水 线 ， 其 对 性 能 会 造成 多 大 的 影响 ? 
[10] <4.6, 4. 14 > 我 们 可 以 去 掉 MemRead 控制 信号 ， 即 每 个 周期 都 读数 据 存储 器 ( MemRead 恒 为 
1) 。 解 释 为 什么 去 掉 该 控制 信号 后 处 理 器 依然 能 正常 工作 。 它 对 时 钟 频率 和 功 耗 又 有 什么 影响 ? 

[10] <4.6, 4. 14 > 如 果 一 个 单元 的 空闲 功 耗 仅 为 正常 工作 时 的 10% ， 每 个 周期 指令 存储 器 的 
功 耗 是 多 少 ? 指令 存储 器 消耗 的 功 耗 中 有 多 少 是 空闲 功 耗 ? 


o 
4.1 
4.2 
4.3 
4.4 


4.5 
4.6 
4.8 
4.9 
4.10 
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理 雾 251 
小 测验 答案 
控制 器 、 数 据 通路 、 存 储 器 。 少 了 和 输入 和 输出 - 


错 。 边沿 触发 状态 单元 可 以 同时 进行 读 写 。 

La，HU. ec。 

是 ，Branch 与 ALUOp0 是 相同 的 。 而 且 ，MemtoReg 和 RegDst 是 相反 的 ， 不 需要 额外 的 反 相 器 。 仅 
使 用 另外 一 个 信号 ， 并 翻转 多 路 选择 器 的 输入 即 可 。 

I. 因为 1w 的 结果 而 阻塞 ; 了 [[. 旁 路 第 一 个 add 的 结果 写 人 $t1; 亚 . 不 需要 阻塞 或 旁 路 。 

2 和 4 正确， 其 余 错 误 。 

1. 预测 不 发 生 ; 2. 预测 发 生 ; 3. 动态 预测 。 

第 一 条 指令 ， 因 为 在 逻辑 上 它 最 先 执行 。 

1. 都 有 ; 2. 都 有 ; 3. 软件 ; 4. 硬件 ; 5. 硬件 ; 6. 硬件 ; 7. 都 有 ; 8. 硬件 ; 9. 都 有 。 
前 两 个 错误 ， 后 两 个 正确 。 
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计算 机 的 5 个 经 典 部 件 


在 理想 情况 下 ， 我 们 希 世 存储 器 容量 可 以 无 限 大 ， 和 这 样 ， 位 何 特定 的 情况 下 ……: 
都 可 以 立 麟 得 到 需要 用 到 的 字 …… 在 实际 中 ， 我 们 需要 构建 一 个 具有 层次 结构 的 存储 
器 ， 其 中 的 每 一 层 都 比 它 的 上 一 层 拥 有 更 大 的 容量 ， 但 访问 速度 更 慢 。 
一 一 及 W Burks, HH Goldstine 和 了 von Neumann 
( Preliminary Discussion of the Logical Design of an Electronic Computing Instrument), 1946 


5.1 引言 


从 最 早期 的 计算 开始 ， 程 序 员 就 希望 快速 存储 器 的 容量 可 以 无 限 大 。 这 一 章 主 要 探讨 如 何 
帮助 程序 员 构 建 一 个 容量 无 限 大 的 虚拟 快速 存储 器 。 在 这 之 前 ， 让 我 们 通过 简单 的 类 比方 式 来 
介绍 将 要 使 用 的 关键 原理 和 机 制 。 

假如 你 正在 完成 一 份 关于 计算 机 硬件 重要 历史 性 发 展 的 论文 ， 你 可 以 从 图 书馆 的 书架 上 
精心 挑选 一 些 经 典 计 算 机 书籍 ， 并 将 它们 放 在 书桌 上 。 你 从 这 些 书 中 找到 了 需要 写 的 几 种 
重要 的 计算 机 ,但 是 没有 找到 关于 EDSAC 的 ， 因此， 你 返回 书架 去 寻找 其 他 书 ， 并 在 早期 
的 英国 计算 机 书籍 中 找到 了 一 本 有 关 EDSAC 的 书 。 一旦 在 你 的 书桌 上 有 了 选 好 的 一 些 书 ， 
你 就 有 可 能 从 这 些 书 中 找到 你 需要 的 许多 内 容 ， 这 样 一 来 ， 你 的 大 部 分 时 间 只 需 花 在 阅读 
这 些 书 上 ， 而 无 需 返 回 书 架 。 试 比较 这 两 种 情况 : 一 种 是 在 你 的 书桌 上 有 好 几 本 书 ; 另 一 
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种 是 书桌 上 只 有 一 本 书 ， 你 不 得 不 频繁 地 返回 书架 ， 进 行 还 书后 取 另 一 本 书 。 在 书桌 前 放 
一 些 书 会 更 节省 时 间 。 
同样 ， 我 们 可 以 构建 一 个 大 容量 的 虚拟 存储 器 ， 它 能 像 小 容量 的 存储 器 那样 被 快速 访 
问 。 就 像 你 不 会 同时 以 相同 的 概率 查阅 图 书馆 中 的 每 一 本 书 那 样 ， 一 个 程序 也 不 会 同时 以 
相同 的 概率 访问 它 全 部 的 代码 或 数据 。 否 则 ， 不 可 能 让 存储 器 在 保持 大 容量 的 同时 又 能 快 
速 访问 ， 就 像 不 能 既 要 求 你 把 图 书馆 中 所 有 的 图 书 放 在 书桌 上 ， 还 要 求 你 能 保持 快速 查找 
一 样 。 
局 部 性 原理 不 仅 适用 于 在 图 书馆 查找 资料 的 工作 方式 ， 而 且 适 用 于 程序 执行 的 方式 。 局 部 
性 原理 表明 了 在 任何 时 间 内 ， 程 序 访问 的 只 是 地 址 空间 相对 较 小 的 一 部 分 内 容 。 以 下 是 两 种 不 
同类 型 的 局 部 性 : 
。 时 间 局 部 性 (temporal locality ) : 如 果 某 个 数据 项 被 访问 ， 那 么 在 不 久 的 将 来 它 可 能 再 
次 被 访问 。 就 如 刚 拿 了 一 本 书 到 书桌 上 查阅 ， 那 么 很 可 能 你 会 很 快 地 再 次 查阅 它 。 
。 空间 局 部 性 〈spatial locality ) : 如 果 某 个 数据 项 被 访问 ， 与 它 地 址 相 邻 的 数据 项 可 能 很 
快 也 将 被 访问 。 例 如 ， 当 你 找到 一 本 关于 EDSAC 的 早期 经 典 计算 机 的 书籍 时 ， 也 许 紧 
挨 着 它 的 另 一 本 关于 早期 工业 计算 机 的 书籍 里 同样 有 你 所 需 的 材料 ， 因 为 图 书馆 通常 
将 主题 相同 的 书 放 在 同一 个 书架 上 以 提高 空间 定位 效率 。 后 面 我 们 将 看 到 空间 局 部 性 
原理 如 何 应 用 于 存储 器 层次 结构 。 


时 间 局 部 性 : 某 个 数据 项 在 被 访问 之 后 可 能 很 快 被 再 次 访问 的 特性 。 
空间 局 部 性 : 某 个 数据 项 在 被 访问 之 后 ,与 其 地 址 相近 的 数据 项 可 能 很 快 被 访问 的 特性 . 


正如 查阅 书桌 上 的 资料 体现 了 自然 的 局 部 性 ， 程 序 的 局 部 性 起 源 于 简单 自然 的 程序 结构 
例如 ， 大 多 数 程序 都 包含 了 循环 结构 ， 因 此 这 部 分 指令 和 数据 将 被 重复 地 访问 ， 呈 现 出 了 很 高 
的 时 间 局 部 性 。 由 于 指令 通常 是 顺序 执行 的 ， 因 此 程序 也 呈现 了 很 高 的 空间 局 部 性 。 对 数据 的 
访问 同样 显示 了 一 种 自然 的 空间 局 部 性 。 例 如 ， 对 数组 或 者 记录 中 的 元 素 进行 顺序 访问 都 体现 
了 高 度 的 空间 局 部 性 。 

我 们 可 以 利用 局 部 性 原理 将 计算 机 存储 器 组 织 成 为 存储 器 层次 结构 ( memory hierarchy ) 。 
存储 器 层次 结构 由 不 同 速度 和 容量 的 多 级 存储 器 构成 。 快 速 存储 器 每 比特 的 成 本 要 比 慢 速 存储 
器 高 很 多 ， 因 而 通常 它们 的 容量 也 比较 小 。 


4) (9 


2 存储 器 层次 结构 : 一 种 由 多 存储 器 层次 组 成 的 结构 ， 存 储 器 的 容量 和 访问 时 间 随 着 离 处 理 
器 距离 的 增加 而 增加 。 


如 图 5-1 所 示 ， 较 快 的 存储 器 靠近 处 理 器 ， 而 较 慢 的 、 便 宜 的 存储 器 层次 较 低 。 其 目的 是 
以 最 低 的 价格 向 用 户 提供 尽 可 能 大 的 存储 容量 ， 同 时 存 取 速 度 与 最 快 的 存储 器 相当 。 

同样 ， 数 据 也 可 以 组 织 成 层次 化 结构 : 靠近 处 理 器 那 一 层 中 的 数据 是 那些 较 远 层次 中 的 子 
集 ， 所 有 的 数据 则 被 存在 最 慢 的 底层 。 我 们 依然 使 用 图 书馆 的 例子 来 进行 类 比 ， 书 桌 上 的 书籍 
是 图 书馆 藏书 的 一 个 子 集 ， 进 而 也 是 学 校 中 所 有 图 书馆 藏书 的 一 个 子 集 。 而 且 ， 离 处 理 器 越 远 
的 层次 访问 时 间 也 越 长 ， 就 像 我 们 在 学 校 图 书馆 系统 中 可 能 遇 到 的 情况 一 样 。 

存储 器 层次 结构 可 以 由 多 层 构成 ， 但 是 数据 每 次 只 能 在 相 邻 的 两 个 层次 之 间 进 行 复制 。 因 
此 我 们 将 注意 力 重点 集中 在 两 个 层次 上 。 高 层 的 存储 器 靠近 处 理 器 ， 比 低层 存储 器 容量 小 但 访 
问 速度 更 快 ， 这 是 因为 它 采用 了 成 本 更 高 的 技术 来 实现 。 如 图 5-2 所 示 ， 我 们 将 一 个 两 级 层次 
结构 中 存储 信息 交换 的 最 小 单元 称 为 块 (block) 或 行 (line) ， 就 像 在 图 书馆 中 ， 一 个 信息 块 
就 是 一 本 书 。 
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速度 尺寸 ”价格 〈 美 元 /位 ) 当前 技术 
最 快 最 小 最 高 SRAM 

DRAM 
最 慢 | 最 大 最 低 磁盘 





图 5-1 存储 器 层次 的 基本 结构 。 存 储 系统 采用 层次 结构 图 5-2 存储 器 层次 结构 中 的 每 两 个 层次 


后 ， 用 户 对 于 存储 器 的 认识 就 是 : 它 的 容量 和 容量 可 以 被 认为 一 个 是 高 层次 ， 一 
最 大 的 那 层 存储 器 相同 ， 而 访问 速度 和 最 快 的 那 层 是 低层 次 。 在 每 一 层 中 ， 存 储 信 
tp ee ented 息 交 换 的 最 小 单元 称 为 块 或 者 
经 代替 了 磁盘 ， 对 于 台式 计算 机 和 服务 器 来 说 可 能 行 。 通 常 在 层次 之 间 复 制 时 按 整 
会 在 存储 器 层次 中 引入 新 的 一 一 层 ; 见 5.2 节 块 进行 传输 


如 果 处 理 器 需要 的 数据 存放 在 高 层 存储 器 中 的 革 个 块 中 ， 则 称 为 一 次 命中 (这 就 好 像 正 好 
从 书桌 上 的 一 本 书 中 找到 所 需 的 信息 一 样 )。 如 果 在 高 层 存储 器 中 没有 找到 所 需 的 数据 ， 这 次 
数据 请 求 则 称 为 一 次 缺失 。 随 后 访问 低层 存储 器 来 寻找 包含 所 需 数据 的 那 一 块 (如同 从 书桌 旁 
走 到 书架 前 去 寻找 所 需 的 书籍 ) 。 命 中 率 (hit rate) 或 命中 比率 (hit ratio) ， 是 在 高 层 存 储 器 
中 找到 数据 的 存储 访问 比例 ， 通 常 被 当成 存储 器 层次 结构 性 能 的 一 个 衡量 标准 。 缺 失 率 (miss 
rate) (1 -命中 率 ) 则 是 在 高 层 存储 器 中 没有 找到 数据 的 存储 访问 比例 。 

追求 高 性 能 是 我 们 使 用 存储 器 层次 结构 的 主要 目的 ， 因 而 命中 时 间 和 缺失 时 间 就 显得 尤为 
重要 。 命 中 时 间 (hit time) 是 指 访问 存储 器 层次 结构 中 的 高 层 存储 器 所 需要 的 时 间 ， 包 括 了 
判断 当前 访问 是 命中 还 是 缺失 所 需 的 时 间 〈 相 当 于 浏览 书桌 上 书籍 所 花费 的 时 间 ) 。 缺 失 代价 
(miss penalty) 是 将 相应 的 块 从 低层 存储 器 替换 到 高 层 存 储 器 中 ， 以 及 将 该 信息 块 传送 给 处 理 
器 的 时 间 之 和 《也 就 是 从 书架 上 取 另 一 本 书 并 将 它 放 到 桌 上 的 时 间 ) 。 由 于 较 高 存储 器 层次 容 
量 较 小 并 且 使 用 了 快速 的 存储 器 部 件 ， 因 此 比 起 对 存储 器 层次 中 较 低 层 的 访问 ， 命 中 时 间 要 少 
得 多 ， 这 也 是 缺失 代价 的 主要 组 成 部 分 。( 同样 ， 查 找 书桌 上 书籍 的 时 间 比 站 起 来 到 书架 前 查 
找 一 本 新 书 所 需 的 时 间 要 少 得 多 。) 


允 ” 块 或 行 : 可 存在 于 或 不 存在 于 cache 中 的 信息 的 最 小 单元 。 

命中 率 : 在 高 层 存 储 器 中 找到 目标 数据 的 存储 访问 比例 。 

缺失 率 : 在 高 层 存 储 器 中 没有 找到 目标 数据 的 存储 访问 比例 。 

命中 时 间 : 访问 某 存 储 器 层次 结构 所 需要 的 时 间 ， 包 括 了 判断 当前 访问 是 命中 还 是 缺失 所 
需 的 时 间 。 

缺失 代价 : 将 相应 的 块 从 低层 存储 器 替换 到 高 层 存 储 器 所 需 的 时 间 ， 包 括 访问 块 、 将 数据 
逐 层 传输 、 将 数据 插入 发 生 缺 失 的 层 和 将 信息 块 传 送 给 请 求 者 的 时 间 。 


在 这 一 章 中 我 们 也 将 看 到 ， 用 来 构建 存储 器 层次 结构 的 这 些 概念 将 影响 计算 机 的 许多 其 他 
方面 ， 包 括 操作 系统 如 何 管理 存储 器 和 LO， 编译 器 如 何 产生 代码 ， 甚 至 对 应 用 程序 如 何 使 用 
计算 机 也 产生 一 定 影响 。 当 然 ， 由 于 所 有 程序 花费 大 量 时 间 访 问 存储 器 ， 因 而 存储 系统 必然 成 
为 评估 机 器 性 能 的 一 个 主要 指标 。 利 用 存储 器 层次 结构 来 达到 性 能 的 提升 ， 意 味 着 在 过 去 程序 
员 可 以 把 存储 器 看 成 是 一 个 线性 的 随机 访问 的 存储 设备 ， 而 现在 必须 理解 存储 器 层次 结构 如 何 
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工作 才能 获得 良好 的 性 能 。 稍 后 我 们 将 在 图 5-18 的 示例 中 说 明 其 重要 性 ， 在 5. 14 节 说 明 如 何 
使 矩阵 乘法 加 信 性 能 。 

由 于 存储 系统 对 性 能 至 关 重 要 ， 计 算 机 设计 人 员 在 这 些 系统 上 花费 了 大 量 精力 ， 并 致力 于 
开发 复杂 的 机 制 来 提高 存储 系统 的 性 能 。 本 章 我 们 主要 讨论 概念 性 的 观点 ， 为 了 不 至 于 使 篇 幅 
过 长 和 使 内 容 太 复杂 ， 对 许多 概念 进行 了 简化 和 抽象 。 


国 ! 重点 ”程序 不 仅 表现 出 时 间 局 部 性 ， 即 重复 使 用 最 近 被 访问 的 数据 项 的 趋势 ， 同 时 也 表现 
出 了 空间 局 部 性 ， 即 访问 与 最 近 谈 访问 过 的 数据 项 地 址 空间 相近 的 数据 项 的 趋势 。 存 储 器 
层次 结构 利用 了 时 间 局 部 性 ， 将 最 近 被 CPU 
访问 的 数据 项 放 在 靠近 处 理 器 的 地 方 ; 
同时 它 也 利用 了 空间 局 部 性 ， 将 一 些 包 

含 连续 字 的 块 移 至 存储 器 层次 结构 的 较 

高 层次 。 

如 图 5-3 所 示 ， 在 存储 器 层次 结构 
中 ， 离 处 理 器 越 近 的 层次 容量 越 小 ， 速 
度 越 快 。 因 此 ， 数 据 在 层次 结构 中 的 最 
高 层 命 中 能 被 很 快 处 理 。 而 缺失 后 ， 需 
要 访问 容量 大 但 速度 慢 的 低层 存储 器 层 


可 





每 一 层 中 存储 器 的 容量 大 小 
图 5-3 这 幅 图 说 明了 存储 器 层次 结构 : 离 处 理 器 越 


人 远 ， 容 量 越 大 。 当 采用 合适 的 操作 机 制 时 ， 
构 就 会 拥有 接近 最 高 《而 且 最 快 ) 层次 这 种 结构 允许 处 理 器 的 访问 时 间 主 要 由 层次 
的 访问 速度 和 接近 最 低 (也 是 最 大 ) 层 结构 中 的 第 1 层 来 决定 ， 而 整个 存储 器 的 容 
re 量 则 和 第 n 层 一 样 大 。 本 章 的 主题 就 是 要 实 
wy | 现 这 种 结构 。 尽 管 本 地 磁盘 一 般 位 于 存储 器 
在 很 多 系统 中 ， 让 信 可 是 一 个 下 时 层次 结构 的 底层 ， 但 是 一 些 系统 会 使 用 磁带 
的 层次 结构 ， 这 意味 着 除非 数据 在 第 或 者 局 域 网 内 的 文件 系统 作为 层次 结构 的 更 
i+1 层 存在 ,否则 绝 不 可 能 在 第 i 层 下 一 层 
存在 9 
钱 | 小 测验 
下 面 哪些 表述 通常 是 正确 的 ? 
. 存储 器 层次 利用 了 时 间 局 部 性 。 


1 

2. 在 一 次 读 操作 中 , 返回 的 值 取决 于 哪些 块 在 cache 中 。 
3. 存储 器 层次 结构 的 大 部 分 成 本 处 于 最 高 层 。 

4. 存储 器 层次 结构 的 大 部 分 容量 处 于 最 低层 。 


5.2 存储 器 技术 


目前 ， 构 建 存储 器 层次 结构 主要 有 4 种 技术 。 主 存储 器 由 DRAM (动态 随机 存 取 存 储 
器 ) 实现 , 靠近 处 理 器 的 那 层 (cache) 则 由 SRAM (静态 随机 存 取 存储 器 ) 来 实现 。 
DRAM 每 比特 成 本 要 低 于 SRAM ， 但 是 速度 比 SRAM 慢 。 价 格 的 差异 源 于 DRAM 每 比特 占用 
的 存储 器 空间 较 少 ， 因 此 等 量 的 硅 制造 的 DRAM 的 容量 会 比 SRAM 的 要 大 。 速 度 的 差异 则 
由 多 种 因素 造成 ， 我 们 将 在 附录 B 的 B. 9 节 中 介绍 。 第 三 种 技术 是 闪存 ， 这 种 非 易 失 存储 
器 用 作 个 人 移动 设备 中 的 二 级 存储 器 。 第 四 种 技术 是 磁盘 ， 它 通常 是 服务 器 中 容量 最 大 且 
速度 最 慢 的 一 层 。 以 上 这 些 技术 的 访问 时 间 和 每 比特 的 成 本 变化 很 大 ， 如 下 表 所 示 ( 表 中 
使 用 的 是 2012 年 的 典型 数据 ) 。 
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。 典型 访问 时 间 








| ”2012 年 每 GiB 的 价格 (美元 ) | 














0. 5 =2.5 500 ~ 1 000 
50 ~70 10 ~20 

5 000 ~50 000 0.75 ~1.00 
5 000 000 ~ 20 000 000 0. 05 ~0. 10 








本 节 的 余下 部 分 将 分 别 讲授 每 种 存储 器 技术 。 
5.2.1 SRAM 技术 


SRAM 是 一 种 组 织 成 存储 阵列 结构 的 简单 集成 电路 ， 通 常 具有 一 个 读 写 端口 。 虽 然 读 写 访 
问 时 间 可 能 不 同 ,但 SRAM 对 任何 数据 访问 时 间 都 是 固定 的 。 

SRAM 不 需要 刷新 ， 并 且 其 访问 时 间 与 周期 时 间 非 常 相 近 。 为 了 防止 读 操作 时 信息 丢失 ， 
SRAM 的 一 个 基本 存储 单元 通常 由 6 ~8 个 晶体 管 组 成 。 在 空闲 模式 下 ，SRAM 只 需要 最 小 的 功 
率 来 保持 电荷 。 

过 去 ， 在 大 多 数 PC 和 服务 器 系统 中 通常 将 SRAM 芯片 从 它们 的 一 级 、 二 级 ， 甚 至 三 级 
cache 中 分 离 出 来 。 由 于 摩尔 定律 的 推动 ， 当 今 的 处 理 器 芯片 中 集成 了 多 层次 的 cache， 因 此 独 
立 的 SRAM 芯片 几乎 在 市 场 上 消失 了 。 


5.2.2 DRAM 技术 


只 要 给 SRAM 加 电 ， 其 中 的 数值 就 会 保持 。 而 在 动态 RAM (DRAM) 中 ,存储 单元 使 用 电 
容 保 存 电荷 的 方式 来 存储 数据 。 为 了 对 保存 的 电荷 进行 读 取 或 写 人 ,使 用 一 个 晶体 管 对 该 电容 
进行 访问 。 因 为 DRAM 存储 每 一 位 都 只 使 用 一 个 晶体 管 ， 所 以 它 比 SRAM 密度 要 高 得 多 ， 且 价 
格 也 要 便宜 很 多 。 由 于 DRAM 在 电容 上 保存 电荷 ， 因 此 不 能 长 久 地 保持 数据 ， 从 而 必须 周期 性 
地 刷新 。 与 静态 存储 器 SRAM 相 比 ， 这 就 是 将 该 存储 结构 称 为 动态 的 原因 。 

为 了 对 单元 进行 刷新 ， 只 需要 读 出 其 内 容 然 后 写 回 即 可 。DRAM 单元 中 的 电荷 可 以 保持 几 
微 秒 。 如 果 DRAM 中 的 每 个 比特 位 需要 独立 的 读 出 后 写 回 ， 则 必须 不 停 地 进行 刷新 操作 ， 这 将 
导致 没有 时 间 可 用 于 正常 的 访问 操作 。 幸 运 的 是 ，DRAM 采用 了 一 种 两 级 译 码 结 构 ， 可 以 通过 
在 一 个 读 周 期 后 紧 跟 一 个 写 周 期 的 方式 一 次 刷新 一 整 行 (一 行 单元 共用 一 个 字 线 ) 。 

图 5-4 给 出 了 一 个 DRAM 的 内 部 组 织 结构 ， 图 5-5 给 出 了 多 年 来 DRAM 的 密度 、 成 本 、 访 
问 时 间 的 变化 。 
bank 











行 
图 5-4 DRAM 的 内 部 组 织 。 现 代 DRAM 以 bank (存储 块 ) 方式 组 织 ， 典 型 的 DDR3 中 有 4 个 bank。 每 
个 bank 由 多 个 行 组 成 。 发 送 一 条 Pre ( 预 充电 ) 命令 能 够 打开 或 者 关闭 一 个 bank。 使 用 Act 
(激活 ) 命令 发 送 一 个 行 地 址 ， 将 对 应 的 行 中 的 数据 传送 到 一 个 缓冲 器 中 。 当 一 行 数据 在 缓冲 
器 中 时 无论 DRAM 数据 宽度 (典型 情况 为 4、8 或 16 位 ) 是 多 少 ， 都 可 以 通过 指定 要 传送 的 
数据 块 大 小 和 数据 块 在 缓冲 器 中 的 起 始 地 址 的 方式 连续 传送 相 邻 地 址 的 数据 。 与 数据 块 的 传送 
一 样 ， 每 条 命令 使 用 时 钟 进 行 同步 
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访问 新 的 访问 已 经 在 缓冲 器 


| 1980 | 6kKib | siso000%0 | 250ns | lsms | 
1983 256Kib | S500000 | lss | Is | 
1985 $200 000 




















2012 本 


图 5-5 直到 1996 年 ，DRAM 芯片 容量 每 3 年 增加 为 原来 的 4 倍 ， 之 后 增长 速度 下 降 非 常 快 。 访 问 时 
间 的 减少 虽然 很 慢 ， 但 是 仍然 在 持续 减少 。 虽 然 价 格 受 到 其 他 诸如 可 用 性 和 需求 等 因素 的 影 
响 ， 但 是 也 基本 上 按照 存储 密度 增加 的 速度 在 降低 。 每 GiB 的 价格 没有 按照 通货 膨胀 进行 
调整 

行 组 织 结构 不 但 有 助 于 刷新 ， 还 有 助 于 性 能 的 提高 。 为 了 提高 性 能 ，DRAM 为 了 进行 重复 
访问 而 对 多 行进 行 缓冲 。 缓 冲 器 与 SRAM 类 似 ; 在 下 一 行 被 访问 之 前 ， 可 通过 改变 地 址 来 访问 
缓冲 器 中 的 任何 一 个 比特 位 。 由 于 访问 该 行 中 数据 的 时 间 短 了 很 多 ， 因 此 极 大 地 减 小 了 数据 访 
问 时 间 。 更 宽 的 芯片 也 可 以 增加 芯片 的 存储 器 带宽 。 当 一 行 数据 在 缓冲 器 中 时 ， 无 论 DRAM 数 
据 宽度 (典型 情况 为 4、8 或 16 位 ) 是 多 少 ， 都 可 以 通过 指定 要 传送 的 数据 块 大 小 和 数据 块 在 
缓冲 器 中 的 起 始 地 址 的 方式 连续 传送 相 邻 地 址 的 数据 。 

为 了 进一步 优化 与 处 理 器 的 接口 ，DRAM 增加 了 时 钟 ， 因 此 称 之 为 同步 DRAM， 简 写 为 
SDRAM。SDARM 的 优势 在 于 使 用 时 钟 对 存储 器 和 处 理 器 保持 同步 。 其 速度 上 的 优势 主要 源 于 
不 需要 额外 指定 地 址 位 以 突 发 方式 传送 多 个 数据 的 能 力 ， 是 在 时 钟 的 控制 下 以 突 发 方式 传送 连 
续 的 数据 。 最 快 的 版 本 称 为 双 教 据 速 率 (DDR) SDRAM。 该 名 称 表示 在 时 钟 的 上 升 沿 和 下 降 
沿 都 要 传送 数据 ， 因 此 可 以 获得 双 倍 的 数据 带宽 。 该 技术 的 最 新 版 本 是 DDR4。 一 个 DDR4- 
3200 DRAM 每 秒 可 以 传输 3 200 兆 次 ， 即 其 时 钟 频率 为 1 600MHz。 

要 支持 如 此 高 的 带宽 需要 在 DRAM 内 部 进行 精心 组 织 。 与 只 有 一 个 快速 的 行 缓冲 器 不 同 ， 
DRAM 内 部 可 以 组 织 成 对 多 个 bank 进行 读 或 写 操作 ， 每 个 bank 都 有 自己 的 行 缓冲 器 。 向 不 同 
的 bank 发 送 一 个 地 址 可 以 允许 同时 对 它们 进行 读 或 写 操作 。 例 如 ， 对 于 4 个 bank 而 言 ， 只 需 
要 一 次 访问 时 间 ， 然 后 以 轮转 方式 对 这 4 个 bank 进行 访问 就 可 以 提供 4 倍 的 带宽 。 这 种 轮转 
的 访问 方式 成 为 地 址 交叉 。 

虽然 iPad ( 见 第 1 章 ) 之 类 的 个 人 移动 设备 使 用 独立 的 DRAM 颗粒 ,但 服务 器 的 存储 器 
通常 是 以 称 为 双 列 存储 器 模块 (Dual Inline Memory Module，DIMM ) 的 小 电路 板 方 式 买卖 。 
DIMM 通常 含有 4 ~ 16 块 DRAM 芯片 ， 它 们 组 织 成 8 字 节 位 宽 。 一 个 使 用 DDR4-3200 SDRAM 
的 DIMM 每 秒 可 以 传送 8 x3 200 =25 600 兆 字 节 。 这 类 DIMM 以 其 带宽 进行 命名 : PC25600。 一 
个 DIMM 可 以 有 如 此 多 的 DRAM 芯片 ， 但 是 在 特定 的 传送 中 只 使 用 其 中 一 部 分 ， 因 此 需要 一 个 
术语 来 表示 DIMM 上 共享 公共 地 址 线 的 芯片 子 集 。 为 了 避免 与 DRAM 内 部 的 行 和 bank 的 名 字 
混淆 ， 使 用 存储 器 rank 来 表示 DIMM 中 的 芯片 的 一 个 子 集 。 
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邯 ] 精 解 ”一 种 测试 cache 之 外 的 存储 器 系统 的 性 能 的 方法 是 使 用 流 基 准 程序 [ MeCalpin， 
1995] 。 它 用 来 测试 长 向 量 操作 的 性 能 。 它 们 没有 时 间 局 部 性 ， 并 且 它 们 访问 的 阵列 比 测 
试 的 计算 机 中 的 cache 要 大 。 





5.2.3 闪存 


闪存 是 一 种 电 可 擦 除 的 可 编程 只 读 存 储 器 (EEPROM ) 。 

与 磁盘 和 DRAM 不 同 ， 而 与 其 他 EEPROM 技术 类 似 ， 对 闪存 的 写 操作 可 以 使 存储 位 损耗 。 
为 了 应 对 该 限制 ， 大 多 数 内 存 产品 都 有 一 个 控制 器 ， 用 来 将 写 操作 从 已 经 写 人 很 多 次 的 块 中 映 
射 到 写 人 次 数 较 少 的 块 中 ， 从 而 使 写 操作 尽量 分 散 。 这 种 技术 称 为 损耗 均衡 ( wear leveling) 。 
采用 损耗 均衡 技术 ,个 人 移动 设备 很 难 超过 闪存 的 写 极限 。 这 种 均衡 技术 虽然 降低 了 内 存 的 潜 
在 性 能 ， 但 是 不 需要 在 高 层次 的 软件 中 监控 块 的 损耗 情况 。 闪 存 控制 器 的 这 种 损耗 均衡 也 将 制 
造 过 程 中 出 错 的 存储 单元 屏蔽 掉 ， 从 而 提高 其 成 
品 率 。 


5.2.4 磁盘 存储 器 


如 图 5-6 所 示 ， 一 个 磁 质 硬盘 包含 一 组 圆 形 磁 
盘 片 ， 它 们 绕 着 轴 心 每 分 钟 转动 5 400 ~ 15 000 周 。 
金属 盘 片 的 两 侧 均 被 磁性 存储 材料 覆盖 ， 其 磁性 
材料 与 盒 式 磁带 和 录像 带 的 材料 相同 。 为 了 对 硬 
盘 上 的 信息 进行 读 写 ， 每 层 的 表面 有 一 个 包含 小 
的 电磁 线圈 的 读 写 磁头 。 整 个 驱动 器 被 永久 地 密 
封 起 来 以 控制 驱动 器 中 的 环境 ， 从 而 使 得 磁头 可 
以 距离 驱动 器 表面 非常 近 。 

每 个 磁盘 的 表面 划分 为 同心 圆 盘 ， 称 为 磁道 
(track) 。 每 个 面 通 常 有 几 万 条 磁道 。 每 条 磁道 同 
样 被 划分 为 用 于 存储 信息 的 扇 区 (sector); 每 条 
磁道 有 几 千 个 扇 区 。 每 个 肩 区 的 容量 通常 是 512 ~ 7 
4 096 字 节 。 信 息 在 磁 介质 上 保存 的 顺序 为 肩 区 号 、 图 55 具有 0 个 盘 而 和 读 写 头 的 丰台 。 当 人 

有 i 9 直径 是 2. 5 ~3.5 英寸 ,并且 每 
一 个 间 际 、 包 含 该 局 区 纠 错 码 ( 见 5.5 节 ) 的 信 个 驱动 器 通常 有 1 ~2 个 圆 形 磁盘 片 
息 、 一 个 间隙 、 下 一 扇 区 的 恒 区 号 。 


马 。 磁道 : 位 于 磁盘 表面 的 数 万 个 同心 圆 环 中 的 任意 一 个 圆 环 称 为 一 个 磁道 。 
人 遍 区 : 构成 磁盘 上 磁道 的 基本 单位 ， 是 磁盘 上 数据 读 写 的 最 小 单位 。 


访问 每 个 盘面 的 磁头 连 在 一 起 相互 协调 运动 ， 因 此 每 个 盘面 的 磁头 位 于 相同 的 扇 区 。 术 语 
柱 面 用 来 表示 磁头 在 给 定点 时 访问 到 所 有 盘面 上 的 所 有 扇 区 的 集合 。 

为 了 访问 数据 ， 操 作 系 统 必 须 对 磁盘 进行 三 步 操作 。 第 一 步 是 将 磁头 移动 到 适当 的 磁道 之 
上 ， 这 称 为 寻 道 〈seek) ， 将 磁头 移动 到 目标 磁道 所 需 的 时 间 称 为 寻 道 时 间 。 


令 “ 寻 道 : 把 读 写 磁 头 移动 到 磁盘 上 适当 的 磁道 上 面 的 过 程 。 


磁盘 供应 商 在 他 们 的 手册 中 报告 寻 道 的 最 小 、 最 大 和 平均 时 间 。 前 面 两 个 寻 道 时 间 数 据 比 
较 容易 测量 ,但 是 平均 寻 道 时 间 却 因 与 寻 道 距 离 相关 而 难 测量 。 工 业界 计算 平均 寻 道 时 间 的 方 
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法 是 对 所 有 可 能 的 寻 道 时 间 取 平均 值 。 平 均 寻 道 时 间 通 常 在 3 ~13ms, 但 是 ， 由 于 应 用 程序 以 
及 磁盘 访问 调度 策略 的 不 同 ， 且 磁盘 数据 具有 局 部 性 ， 所 以 实际 的 平均 寻 道 时 间 通 常 只 有 标 称 
数据 的 25% ~33% 。 由 于 对 同一 文件 通常 会 做 连续 访问 ， 其 操作 系统 也 会 尽量 把 这 些 访问 一 起 
进行 调度 ， 所 以 这 种 局 部 性 会 增加 。 

一 县 磁头 到 达 了 正确 的 磁道 ， 就 必须 等 待 要 访问 的 扇 区 转动 到 读 写 头 下 面 。 该 等 待 时 间 称 
为 旋转 延 时 (rotational latency) 。 平均 延 时 通常 是 磁盘 转动 一 周 时 间 的 一 半 。 磁 盘 每 分 钟 转动 
5 400 ~15 000 周 。5 400 周 的 磁盘 的 平均 旋转 延 时 为 


平均 旋 装 医 时 = 一 三 一 一 一 一 一 一 三 0.0056 秒 =5.6 毫秒 
5400 RPM 5400 RPM/( 60 2 


磁盘 访问 的 最 后 一 部 分 是 传输 时 间 ， 即 传输 一 块 数据 需要 的 时 间 。 传 输 时 间 是 扇 区 
大 小 、 旋 转速 度 和 磁道 信息 密度 的 一 个 函数 。2012 年 的 传输 速率 在 每 秒 100 ~200MB。 


2 旋转 延 时 : 在 磁头 定位 后 ， 指 定 扇 区 通过 读 写 头 的 所 需 时 间 。 通 常 是 磁盘 转动 一 周 时 间 的 
一 站。 


大 多 数 磁 盘 控制 器 的 一 个 复杂 问题 是 ， 它 有 一 个 仅 保 存 最 近 传 输 过 的 扇 区 数据 的 cache， 
从 cache 中 传输 数据 的 速率 通常 更 高 ， 在 2012 年 到 了 每 秒 750MB (每 秒 6Gb) 。 

现在 ， 块 号 存放 在 哪里 不 能 再 赁 直觉 了 。 前 面 所 述 的 扇 区 -磁道 - 柱 面 模 型 有 如 下 假定 : 
邻近 的 块 在 同一 磁道 上 ; 因为 访问 同一 柱 面 上 的 块 不 需要 寻 道 时 间 ， 所 以 访问 时 间 较 短 ; 一 
磁道 与 其 他 磁道 距 磁 头 更 近 。 变 化 的 原因 是 磁盘 接口 层次 的 提升 。 为 了 加 速 数 据 传 输 ， 高 层次 
的 接口 将 磁盘 组 织 地 更 像 磁带 ， 而 不 像 随机 访问 设备 。 在 一 个 磁 面 上 ， 逻 辑 块 以 弯曲 形式 顺序 
排列 ， 尽 可 能 使 所 有 扇 区 的 数据 密度 相同 ， 从 而 获得 最 好 的 性 能 。 因 此 ， 顺 序 的 块 可 能 在 不 同 
的 磁道 上 。 

概括 起 来 ， et 度 慢 ， de 





度 的 成 本 即 可 获得 很 大 的 存储 容量 而 使 得 每 比特 位 的 成 本 低 了 许多 磁盘 会 便宜 10 - 100 
倍 。 与 内存 类 似 , 磁盘 是 非 易 失 的 ,但 却 不 存在 写 损耗 问题 。 然 而 ， 闪 存 更 加 坚固 ， 因 此 更 加 
适用 于 个 人 移动 设备 。 


5.3 cache 的 基本 原理 


cache: 一 个 隐藏 或 者 存储 信息 的 安全 场所 。 
—— 《Webster s New World Dictionary of the American Language), 
Third Collige Edition, 1988 


在 前 面 介绍 的 图 书馆 例子 中 ， 书 桌 就 好 比 是 高 速 缓存 〈 cache) 一 一 一 个 存放 待 用 事物 
(书籍 ) 的 安全 场所 。 在 早期 的 商业 计算 机 中 ，cache 是 处 理 器 和 主 存 之 间 的 特殊 层次 。 在 第 4 
章 的 数据 通路 中 ， 存 储 器 就 被 cache 简单 地 替代 了 。 现 在 ， 尽 管 cache 的 使 用 占据 了 主导 地 位 ， 
但 该 术语 也 用 来 指 代 那 些 基于 局 部 性 原理 来 管理 的 存储 器 。cache 最 早出 现在 20 世纪 60 年 代 
早期 的 研究 型 计算 机 中 ， 后 期 则 被 应 用 于 产品 型 计算 机 。 如 今生 产 的 每 一 台 通 用 计算 机 ， 从 服 
务 器 到 低 功 耗 刻 人 式 处 理 器 ， 都 含有 cache。 

在 这 一 节 中 ， 我 们 先 来 看 一 个 简单 的 cache， 处 理 器 每 次 请 求 一 个 字 ， 每 个 块 也 由 一 个 单 
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独 的 字 组 成 〈 已 经 熟悉 cache 基本 原理 的 读者 可 以 跳 至 5.4 节 )。 图 5-7 就 是 一 个 简单 的 cache， 
要 访问 的 数据 项 最 初 不 在 cache 中 。 在 请 求 发 出 之 前 ，cache 中 保存 了 最 近 所 访问 过 的 数据 项 
XX ，X,，…，X,_| 的 集合 ， 而 当前 处 理 器 所 要 访问 的 
































数据 项 ,并 不 在 cache 中 。 该 请 求 导 致 了 一 次 缺失 ， < 

X, 被 从 主 存 调 入 cache 之 中 。 二 Fo 
观察 图 5-7 中 的 情景 ， 有 两 个 问题 需要 解决 : 怎 | | 

样 知道 一 个 数据 项 是 否 在 cache 中 ? 此外， 如 果 数 据 Ea i 

项 在 cache 中 ， 如 何 找 到 它 ? 这 两 个 问题 的 答案 是 相 各 克 

关 的 。 如 果 每 个 字 都 放 在 cache 中 确定 的 位 置 ， 那么 

只 要 它 在 cache 中 , 我们 就 能 直接 找到 它 。 在 cache 六 冯 

中 为 主 存 中 每 个 字 分 配 一 个 位 置 的 最 简单 方法 就 是 a) 访问 之 前 b) 访问 光 之 后 

根据 这 个 字 的 主 存 地 址 进行 分 配 ， 这 种 cache 结构 称 ”图 5-7 对 字 蕊 访问 前 后 cache 中 的 内 

为 直接 映射 (direct mapped) 。 每 个 存储 器 地 址 对 应 容 ， 最 初 X, 不 在 cache 中 。 这 

到 cache 中 一 个 确定 的 地 址 。 对 直接 映射 cache 来 说 ， 次 访问 引起 了 一 次 缺失 ， 并 强 

主 存 地 址 和 cache 位 置 之 间 的 典型 映射 通常 比较 简 制 cache 从 存储 器 中 取 回 艺 ， 

单 。 例 如 ， 几 乎 所 有 的 直接 映射 cache 都 使 用 以 下 的 随后 将 , 放 入 cache 中 

映射 方法 : 


( 块 地 址 ) mod (cache 中 的 块 数 ) 
加 ”直接 映射 : 一 种 cache 结构 ， 其 中 每 个 存储 器 地 址 仅仅 对 应 到 cache 中 的 一 个 位 置 。 


如 果 cache 中 的 块 数 是 2 的 突 ， 取 模 的 计算 就 很 简单 ， 只 需要 取 地 址 的 低 log,( 块 中 的 
cache 容量 ) 位 。 因 此 , 一 个 8 块 的 cache 可 以 使 用 块 地 址 中 最 低 的 三 位 (8 =2 ) 。 例 如 ， 
图 5-8 中 ,直接 映射 的 cache 块 大 小 为 8 个 字 ， 存 储 器 地 址 lo(00001;) 到 29o(11101:) 被 映射 
到 cache 中 lo(001,) 到 5%(101,) 的 位 置 。 


























00001 00101 01001 01101 10001 10101 11001 11101 
存储 器 


图 5-8 主 存 地 址 0 ~31 被 映射 到 cache 中 的 相同 位 置 ， 该 cache 中 有 8 个 字 。 由 于 cache 中 有 8 个 字 ， 
地 址 被 映射 到 直接 映射 cache 字 XX mod 8， 即 低 log, (8) =3 位 被 用 作 cache 索引 。 因 此 ， 地 址 
00001, 、01001, 、10001, 和 11001, 都 对 应 于 cache 中 第 001, 块 ， 而 地 址 00101,、01101,、10101， 
和 11101, 都 对 应 于 cache 中 第 101, 块 


由 于 cache 中 每 个 位 置 可 能 对 应 于 主 存 中 多 个 不 同 的 地 址 ， 我 们 如 何 知道 cache 中 的 数据 
项 是 否 是 所 请 求 的 字 呢 ? 即 如 何 知道 所 请 求 的 字 是 否 在 cache 中 ? 我们 可 以 在 cache 中 增加 一 
组 标记 (tag) ， 标 记 中 包含 了 地 址 信息 ， 这 些 地 址 信息 可 以 用 来 判断 cache 中 的 字 是 否 就 是 所 
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请 求 的 字 。 标 记 只 需 包 含 地 址 的 高 位 ， 也 就 是 没有 用 来 检索 cache 的 那些 位 。 例 如 ， 在 图 5-8 
中 ， 标 记 位 只 需 使 用 5 位 地 址 中 的 高 两 位 ， 地 址 低 3 位 的 索引 域 则 用 来 选择 cache 中 的 块 。 按 
照 定义 ,任何 一 个 可 以 放 入 相同 cache 块 中 的 字 的 地 址 的 索引 域 一 定 是 那个 块 的 块 号 ， 因 此 标 
记 位 无 需 包 含 这 些 宛 余 的 索引 位 。 


本 ”标记 : 表 中 的 一 个 字段 ， 包 含 了 地 址 信息 ， 这 些 地 址 信息 可 以 用 来 判断 cache 中 的 字 是 否 
就 是 所 请 求 的 字 。 


我 们 还 需要 一 种 方法 来 判断 cache 块 中 确实 没有 包含 有 效 信息 。 例 如 ， 当 一 个 处 理 器 启动 
时 ，cache 中 没有 数据 ， 标 记 域 中 的 值 没有 意义 。 其 至 在 执行 了 一 些 指令 后 ，cache 中 的 一 些 块 
依然 为 空 ， 如 图 5-7 所 示 。 因 此 ， 在 cache 中， 这些 块 的 标记 应 该 被 忽略 。 最 常用 的 方法 就 是 
增加 一 个 有 效 位 〈valid bit) 来 标识 一 个 块 是 否 含有 一 个 有 效 地 址 。 如 果 该 位 没有 被 设置 ， 则 
不 能 使 用 该 块 中 的 内 容 。 


忆 ” 有效 位 : 表 中 的 一 个 字段 ， 用 来 标识 一 个 块 是 否 含有 一 个 有 效 数 据 。 


在 本 节 的 剩余 部 分 ， 我 们 将 重点 说 明 如 何在 cache ee 通常 来 说 ， 由 于 读 操 
作 不 会 改变 cache 中 的 内 容 ， 因 而 处 理 时 比 写 操作 要 简单 一 些 。 在 探讨 了 读 操作 和 cache 缺 
失 如 何 处 理 的 基本 原理 后 ， 我 们 将 介绍 实际 计算 机 中 cache 0 cache 如 何 处 理 写 
操作 。 


敬重 点 cache 可 能 是 预测 技术 中 最 重要 的 例子 。 它 依赖 于 局 部 性 原理 尽 可 能 在 存储 器 层次 
结构 的 更 高 一 层 中 寻找 需要 的 数据 ， 并 且 当 预测 错误 时 提供 能 够 从 存储 器 层次 的 更 低 一 层 
中 找到 并 获取 正确 数据 的 机 制 。 现 代 计 算 机 中 cache 预测 命中 率 通常 高 于 95% ( 见 
图 5-47)。 


5. 3.1 cache 访问 


下 面 是 对 一 个 容量 为 8 块 的 空 cache 进行 9 次 访问 的 一 个 序列 ,包括 每 次 访问 的 行为 。 
图 5-9 给 出 了 每 一 次 缺失 后 cache 内 容 的 变化 。 由 于 cache 中 有 8 个 块 ， 地址 的 低 3 位 给 出 
了 块 号 。 


分 配 的 cache 块 
访问 的 十 进 制 地址 访问 的 二 进 制 地 址 在 cache 中 命中 7 缺失 (查找 或 者 放置 的 位 置 ) 

















































10110， 缺失 (图 5-9b) (10110; mod 8) =110， 
11010， 缺失 〈 图 5-9c) (11010;mod 8) =010， 
10110; | 命中 (10110, mod 8) =110， 
11010， 命中 (11010, mod 8) =010， 
10000, 缺失 (图 5-9d) (10000, mod 8 ) =000, 











(00011; mod 8) =011, 
(10000;, mod 8) =000, 
(10010; mod 8) =010， 
(10000, mod 8 ) =000, 






缺失 (图 5-9e) 
命中 
缺失 (图 5-9f) 
命中 





00011， 
10000， 
10010， 
10000， 
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| 站 | 有 效 位 CV | 标记 | 数 良 | 
000 


本 


主 存 (10110,) 
























































a) 上 电 后 cache 的 初始 状态 b) 处 理 地 址 (10110,) 缺失 后 的 cache 状态 
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000 党 10, 主 存 (10000, ) 
001 N 

主 存 (11010,) 010 和 Ti 主 存 (11010,) 
011 N | 
100 N 
101 N 

主 存 (10110,) 110 
111 N 








c) 处 理 地 址 (11010,) 缺失 后 的 cache 状态 d) 处 理 地 址 (10000,) 缺失 后 的 cache 状态 
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Y 10, 主 存 (10000,) | Y 
N N 
Y 11。 | 主 存 (11010,) Y 主 存 (10010,) 
Y 00。 | 主 存 (00011,) Y 主 存 (00011,) 
N N 
101 N N 
| _10 Y 10。 | 主 存 (10110,) | Y | 10。 | 主 存 (10110,) 
ll1 | N | N 
e) 处 理 地 址 〈00011? ) 缺失 后 的 cache 状态 f) 处 理 地 址 〈10010: ) 缺失 后 的 cache 状态 


图 5-9 ”对 相应 的 地 址 序列 给 出 每 次 请 求 缺 失 后 cache 中 的 内 容 、 索 引 和 标记 域 (二 进 制 表示 ) 。cache 初始 
为 室 ， 所 有 的 有 效 位 关闭 (N) 。 处 理 器 请 求 以 下 地 址 : 10110， (缺失 ) 、11010, (缺失 ) 、10110， 
(命中 ) 、11010，( 命 中 ) 、10000,， (缺失 ) 、00011 (缺失 ) 、10000， (命中 ) 、10010; (缺失 ) 以 
及 10000, (命中 ) 。 这 些 图 指出 了 依次 出 现 的 每 一 次 缺失 处 理 后 cache 中 的 内 容 。 当 地 址 10010， 
(18) 被 访问 时 ， 地 址 为 11010，(26) 中 的 项 就 要 被 替换 掉 ， 随 后 再 访问 11010, 会 引起 缺失 。 标 
记 域 只 包含 地 址 的 高 位 部 分 。cache 块 i、 标 记 域 为 j 的 字 的 完整 地 址 是 7 x8 +i， 或 者 等 效 为 地 址 
域 i 和 索引 i 的 连接 。 例 如 ， 上 面 的 f 图 中 ,索引 010, 、 标 记 为 10, 的 块 ， 对 应 地 址 10010， 

由 于 cache 初始 为 空 ， 第 一 次 访问 的 一 些 数据 都 会 发 生 缺 失 。 图 5-9 对 每 一 次 访问 行为 进行 
了 描述 。 第 8 次 访问 将 会 对 cache 中 的 一 个 块 产生 冲突 的 请 求 。 地 址 18 (10010,) 的 字 将 被 取 到 
cache 的 第 2 块 (010,) 中 。 因 此 ， 它 将 替换 掉 原 先 存在 于 cache 第 2 块 (010,) 中 的 地 址 为 26 
(11010,) 中 的 字 。 这 种 行为 令 cache 具有 时 间 局 部 性 : 最 近 访 问 过 的 字 蔡 换 掉 较 早 访问 的 字 。 

这 种 情况 就 好 比 要 从 书架 上 取 一 本 书 ， 而 书桌 上 已 经 没有 任何 地 方 可 以 放 这 本 书 了 ， 因 此 
原先 摆 在 书桌 的 某 本 书 必须 被 放 回 书架 。 在 直接 映射 cache 中 ， 只 有 一 个 位 置 可 以 存放 最 新 请 
求 的 数据 项 ， 因 此 对 于 哪个 数据 项 被 替换 也 只 有 一 种 选择 。 

对 每 个 可 能 的 地 址 ， 在 cache 中 进行 如 下 查找 : 地 址 的 低位 用 来 找到 cache 中 与 该 地 址 匹 
配 的 唯一 项 。 图 5-10 说 明 一 个 地 址 可 以 划分 为 : 

e 标记 域 用 来 与 cache 中 标记 域 的 值 进行 比较 。 

e cache 索引 : 用 来 选择 块 。 
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地 址 ( 显示 位 的 位 置 ) 
3130 … 131211 … 2 10 














图 5$-10 对 这 个 cache， 地 址 的 低位 用 来 选择 由 数据 字 和 标记 组 成 的 一 个 cache 项 。 这 个 cache 中 有 
1 024 个 字 ， 即 4KiB。 在 这 一 章 中 ,我 们 假设 使 用 32 位 的 地 址 。cache 中 的 标记 与 地 址 高 位 相 
比较 ， 判 断 cache 中 的 项 是 否 符合 请 求 的 地 址 。 由 于 cache 有 2” (1 024) 个 字 ， 块 大 小 为 1 
个 字 ， 因 此， 索引 cache 需要 10 位 ， 剩 下 的 32 - 10 -2 = 20 位 用 来 和 标记 相 比较 。 如 果 标 记 
和 地 址 的 高 20 位 相等 ， 并 且 有 效 位 开启 ， 那 么 请 求 在 cache 中 命中 ， 相 应 的 字 被 提供 给 处 理 
器 。 否 则 ， 发 生 缺 失 
cache 块 的 索引 以 及 标记 唯一 确定 了 cache 块 中 存放 内 容 的 主 存 地 址 。 由 于 索引 域 用 来 寻 址 ， 
而 且 一 个 位 的 域 有 2" 种 值 ， 直 接 映射 cache 中 项 的 总 数 必 须 为 2 的 宕 。 在 MIPS 体系 结构 中 ， 
由 于 字 是 以 4 字 节 的 倍数 对 齐 的 ， 每 个 地 址 至 少 有 两 位 用 来 指定 字 中 的 一 个 字 节 。 因 此 当选 择 块 
中 的 一 个 字 时 至 少 两 位 被 忽略 。 
由 于 cache 不 仅 存 储 数据 也 存储 标记 位 ，cache 所 需 的 总 位 数 是 cache 大 小 和 地 址 位 数 的 函 
数 。 在 前 文中 提 及 的 块 大 小 为 1 个 字 ， 但 通常 块 大 小 为 多 字 。 就 像 下 面 的 情况 : 
e。 32 位 地 址 。 
e 直接 映射 cache。 
e cache 大 小 为 2" 个 块 ， 因 此 nn 位 被 用 来 索引 。 
。 块 大 小 为 2" 个 字 (2”"“ 字 节 )， 因 此 m 位 用 来 查找 块 中 的 字 ， 两 位 是 字 节 偏 移 信息 。 
标记 域 的 大 小 为 
32-(n+m+2) 
直接 映射 的 cache 总 位 数 为 
2" x ( 块 大 小 + 标记 域 大 小 + 有 效 位 域 大 小 ) 388 
由 于 块 大 小 为 2" 个 字 (2”" “位 )， 同 时 我 们 需要 1 位 有 效 位 ， 因 此 这 样 一 个 cache 的 位 数 是 
2° x (2"x32+(32-n-m-2)+1) =2"x(2”"x32+31-n-m) 
尽管 以 上 计算 是 实际 的 大 小 ， 但 是 通常 对 cache 命名 只 考虑 数据 的 大 小 而 不 考虑 标记 域 和 
有 效 位 域 的 大 小 。 因 此 ， 图 5-10 中 是 一 个 4KiB 的 cache。 
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苇 | 例题 * cache 中 的 位 数 

假设 一 个 直接 映射 的 cache， 有 16KiB 的 数据 ， 块 大 小 为 4 个 字 ， 地 址 为 32 位 ， 那 么 该 
cache 总 共 需 要 多 少 位 ? 
著 ] 答案 

我 们 知道 16KiB 是 4 096(2”) 个 字 ， 块 大 小 是 4 个 字 (2*)， 那 么 就 有 1024 (2") 个 块 。 
每 个 块 有 4 x32 即 128 位 的 数据 ， 加 上 32 -10 -2 -2 位 的 标记 域 ， 再 加 上 一 个 有 效 位 ， 因 此 ， 
总 的 cache 大 小 是 

20x(4x32+(32 -10-2-2)+1) =20 x147 = 147Kib 

即 能 装 16KiB 数据 的 cache 总 共 需 要 18.4KiB 的 容量 。 这 个 cache 的 总 位 数 是 数据 存储 量 的 
1. 15 倍 。 口 


加 例题 . 将 一 个 地 址 映射 到 多 字 大 小 的 cache 块 中 
考虑 一 个 cache 中 有 64 个 块 ， 每 块 大 小 为 16 字 节 ， 那么 字 节 地 址 1 200 将 被 映射 到 cache 
中 的 哪 一 块 ? 
团 ] 答案 
块 由 下 面 公式 给 出 : 
〈《 块 地 址 ) mod (cache 中 的 块 数 ) 
其 中 块 地 址 为 
字 节 地 址 /每 块 字 节 数 
注意 ， 这 个 块 地 址 包含 了 所 有 在 
字 节 地 址 /每 块 字 节 数 x 每 块 字 节 数 


和 
字 节 地 址 /每 块 字 节 数 x 每 块 字 节 数 + (每 块 字 节 数 - 1) 
之 间 的 地 址 。 
因此 ， 由 于 每 个 块 有 16 字 节 ， 字 节 地 址 1 200 对 应 的 块 地 址 为 
1200/16 = 75 
对 应 于 cache 中 的 块 号 (75 mod 64) =11。 事 实 上 ， 地址 1200 和 1215 之 间 的 所 有 地 址 都 
映射 在 这 一 块 。 口 


较 大 的 cache 块 能 更 好 地 利用 空间 局 部 性 以 降低 缺失 率 。 如 图 5-11 所 示 ， 增 加 块 大 小 通常 
会 引起 缺失 率 下 降 。 而 当 块 大 小 在 cache 容量 中 所 占 比 例 增加 到 一 定 程 度 时 ， 缺 失 率 也 随 之 增 
加 。 这 是 因为 此 时 cache 中 块 的 数量 变 得 很 少 ， 对 于 这 些 块 将 会 有 大 量 的 竞争 发 生 。 结 果 ， 就 
造成 一 个 块 中 的 数据 在 被 多 次 访问 之 前 就 被 替换 出 cache。 男 一 方面 ， 对 于 一 个 太 大 的 块 ， 块 
中 各 个 字 之 间 的 空间 局 部 性 也 会 降低 ， 缺 失 率 降低 所 带 来 的 益处 也 会 相应 减少 。 

仅仅 增加 块 大 小 所 带 来 的 一 个 更 加 严重 的 后 果 是 缺失 成 本 的 增加 。 由 较 低 存储 器 层次 取出 
块 并 存放 至 cache 中 所 花费 的 时 间 决 定 了 缺失 代价 。 取 出 块 的 时 间 可 以 分 为 两 部 分 : 第 一 个 字 
的 延迟 时 间 和 剩余 部 分 块 的 传输 时 间 。 很 显然 ， 除 非 改 变 存 储 系统 ， 否 则 ， 传 输 时 间 ， 也 就 是 
缺失 代价 将 随 着 块 大 小 的 增 大 而 增加 。 此 外 ， 当 块 越 来 越 大 时 ,缺失 率 的 改善 也 开始 降低 。 而 
当 块 过 于 大 时 ， 缺 失 代 价 的 增长 超过 了 缺失 率 的 降低 ， 因 此 cache 的 性 能 也 随 之 降低 。 当 然 ， 
如 果 把 存储 器 设计 得 能 更 有 效 地 传输 较 大 的 块 时 ， 我 们 就 能 增加 块 的 大 小 并 且 进 一 步 改 善 
cache 性 能 。 这 一 点 我 们 将 在 下 一 节 讨 论 。 
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缺失 率 





块 大 小 


图 5-11 缺失 率 与 块 大 小 。 注 意 到 如 果 相 对 于 cache 容量 来 说 ， 块 大 小 太 大 ， 缺 失 率 实际 上 是 上 升 的 。 
每 条 曲线 代表 不 同 容量 的 cache (图 中 没有 考虑 相 联 度 ， 稍 后 讨论 ) 。 不 幸 的 是 ， 如 果 包 括 块 
大 小 ,那么 SPEC CPU 2000 追踪 信息 将 花费 太 长 的 时 间 ， 因 此 这 些 数 据 都 基于 SPEC92 


o 虽 精 解 ”缺失 时 ， 较 大 的 块 会 带 来 长 延迟 从 而 增加 了 缺失 代价 。 要 减少 这 一 部 分 延迟 尽管 比 
较 困 难 ， 但 我 们 可 以 通过 隐藏 一 些 传输 时 间 来 有 效 地 降低 缺失 代价 。 最 简单 的 方法 是 提前 
重启 (early restart) ， 即 当 块 中 所 需 字 一 旦 返回 就 马上 继续 执行 ， 而 不 需要 等 到 整个 块 都 
传 过 来 之 后 再 执行 。 许 多 处 理 器 利用 这 种 技术 进行 指令 访问 ， 效 果 甚 佳 。 大 部 分 指令 访问 
都 具有 连续 性 ， 因 此 存储 系统 每 个 时 钟 周 期 都 能 传送 一 个 字 ， 只 要 存储 系统 能 保证 及 时 传 
递 新 的 指令 字 ， 那 么 当 所 请 求 的 字 返 回 时 ， 处 理 器 就 可 以 重新 开始 操作 。 将 这 种 技术 应 用 
于 数据 cache 时 效率 要 低 一 些 ， 这 是 因为 所 请 求 的 字 可 能 以 一 种 无 法 预知 的 方式 分 布 ， 而 
在 传输 结束 前 处 理 器 请 求 另 一 块 中 的 字 的 可 能 性 也 很 高 。 如 果 数据 传输 正在 进行 ， 处 理 器 
就 无 法 访问 数据 cache， 因 而 它 必 然 阻塞 。 

另 一 种 更 复杂 的 机 制 是 重新 组 织 存 储 器 ， 使 得 被 请 求 的 字 先 从 存储 器 传 到 cache 中 ， 
然后 再 传送 该 块 的 剩余 部 分 ， 从 所 请 求 的 字 的 下 一 个 地 址 开始 传送 ,再 回 到 块 的 开始 。 这 
种 技术 被 称 为 请 求 字 优先 (requested word first) 或 者 关键 字 优 先 (critical word first) ， 它 
比 提前 重启 要 快 一 些 , 但 与 提前 重启 一 样 ， 会 因为 同样 的 问题 而 受到 限制 。 


5. 3.2 cache 缺失 处 理 


在 研究 一 个 真实 系统 中 的 cache 之 前 ， 让 我 们 先 来 看 一 下 控制 单元 是 如 何 处 理 cache 缺失 
(cache miss) 的 (在 5.9 节 将 详细 介绍 cache 控制 器 ) 。 控 制 单元 必须 能 检测 到 缺失 的 发 生 ， 然 
后 从 主 存 (或 者 较 低 一 级 cache) 中 取 回 所 需 的 数据 来 处 理 缺 失 。 如 果 在 cache 中 命中 ,计算 
机 继续 使 用 该 数据 ， 就 好 像 什么 都 没有 发 生 过 。 


令 cache 缺失 : 由 于 数据 不 在 cache 中 而 导致 被 请 求 的 数据 不 能 满足 。 


命中 时 ， 对 处 理 器 控制 的 修改 不 太 重要 ; 缺失 时 则 需要 增加 一 些 额外 的 工作 。cache 缺失 
处 理由 两 部 分 共同 完成 : 处 理 器 控制 单元 ， 以 及 一 个 进行 初始 化 主 存 访 问 和 重新 填充 cache 的 
独立 控制 器 。cache 缺失 引起 流水 线 阻塞 ( 见 第 4 章 ) ， 这 与 中 断 不 同 ， 中 断 发 生 时 需要 保存 所 
有 寄存 器 的 状态 。 当 cache 缺失 ， 我 们 等 待 主 存 操 作 完 成 时 ， 整 个 处 理 器 阻塞 ， 临 时 寄存 器 和 
程序 员 可 见 的 寄存 器 中 的 内 容 基 本 被 冻结 。 与 之 相 比 ， 更 为 复杂 的 乱 序 执行 处 理 器 在 等 待 
cache 缺失 处 理 的 同时 ， 依 然 能 执行 其 他 一 些 指 令 。 但是， 在 本 节 中 ， 我们 均 假 定 为 顺序 执行 
处 理 器 ， 当 cache 缺失 时 其 被 阻塞 。 
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我 们 再 来 讨论 一 下 指令 发 生 缺 失 时 将 如 何 处 理 ， 同 样 的 方法 略 加 修改 便 可 以 用 来 处 理 数据 
缺失 。 如 果 指令 访问 引起 一 次 缺失 ,那么 指令 寄存 器 中 的 内 容 无 效 。 为 了 将 正确 的 指令 取 回 
cache ， 我 们 必须 通知 存储 器 层次 结构 中 的 较 低 层次 执行 一 次 读 操作 。 由 于 在 执行 的 第 一 个 时 
钟 周期 ， 程 序 计数 器 产生 了 新 的 增 量 ， 因 此 产生 缺失 的 指令 地 址 等 于 程序 计数 器 中 的 值 减 4。 
当地 址 产生 时 ， 就 可 以 通知 主 存 执 行 一 次 读 操作 ， 并 且 等 待 存储 器 的 响应 (访问 主 存 可 能 需要 
多 个 时 钟 周期 )， 随 后 把 取 回 的 字 写 入 cache。 

现在 我 们 可 以 定义 发 生 指 令 cache 缺失 的 处 理 步骤 : 

1) 把 程序 计数 器 (PC) 的 原始 值 〈 当 前 PC -4) 送 到 存储 器 中 。 

2) 通知 主 存 执行 一 次 读 操 作 ， 并 等 待 主 存 访问 完成 。 

3) 写 cache 项 ,将 从 主 存 取 回 的 数据 写 入 cache 中 存放 数据 的 部 分 ， 并 将 地 址 的 高 位 〈 从 
ALU 中 得 到 ) 写 人 标记 域 ， 设 置 有 效 位 。 

4) 重启 指令 执行 第 一 步 ， 重 新 取 指 ， 这 次 该 指令 在 cache 中 。 

数据 访问 时 对 cache 的 控制 基本 相同 : 发 生 缺 失 时 ， 处 理 器 发 生 阻塞 ， 直 到 从 存储 器 中 取 
回 数据 后 才 响应 。 


5. 3.3 写 操作 处 理 


写 操作 略微 不 同 。 如 果 有 一 个 store 指令 ， 我 们 只 将 该 数据 写 人 数据 cache (而 不 改变 主 存 
的 内 容 ); 那么 ,在 写 人 cache 之 后 ， 主 存 与 cache 相应 位 置 中 的 值 将 不 同 。 在 这 种 情况 下 ， 
cache 和 主 存 被 认为 不 一 致 〈inconsistent) 。 保 持 主 存 和 cache 一 致 性 最 简单 的 方法 就 是 将 这 个 
数据 同时 写 人 主 存 和 cache 中 ， 这 种 方法 称 为 写 直达 (write-through) 法 。 


人 写 直达 : 也 译 为 写 通过 或 写 穿 。 写 操作 总 是 同时 更 新 cache 和 下 一 存储 器 层次 ， 以 保持 二 
者 一 致 性 。 


写 操 作 要 考虑 的 男 一 个 主要 方面 是 发 生 写 缺失 的 情况 。 我 们 首先 从 主 存 中 取出 块 中 的 字 。 
数据 块 被 取 回 并 存 人 cache 中 后 ， 我 们 就 可 以 将 引起 缺失 的 字 重 新 写 人 cache 中 。 同 时 ， 我 们 
使 用 全 地 址 将 该 字 写 入 主 存 。 

尽管 这 种 设计 方案 能 简单 地 处 理 写 操作 ， 但 却 无 法 提供 良好 的 性 能 。 使 用 写 直达 的 机 制 ， 
每 次 写 操作 都 要 把 数据 写 人 主 存 之 中 。 这 些 写 操作 将 花费 大 量 的 时 间 ， 可 能 至 少 要 花费 100 个 处 
理 器 时 钟 周期 ， 并 且 大 大 降低 了 机 器 速度 。 例 如 ， 假 设 10% 的 指令 是 store 指令 ， 没 有 cache 缺失 
的 情况 下 CPI 为 1.0， 每 次 写 操作 要 额外 花费 100 个 周期 ， 就 使 得 CPI 为 1.0 +100 x10% =11, 性 
能 降低 10 倍 多 。 

这 个 问题 的 一 种 解决 方法 是 采用 写 缓冲 (write buffer) 。 当 一 个 数据 在 等 待 被 写 人 主 存 时 ， 
先 将 它 放 入 写 缓冲 中 。 当 把 数据 写 和 人 cache 和 写 缓冲 后 ， 处 理 器 可 以 继续 执行 。 当 写 主 存 操作 
完成 后 ， 写 缓冲 里 的 数据 项 也 得 到 释放 。 如 果 写 缓冲 已 经 满 了 ,那么 当 处 理 器 执行 到 一 个 写 操 
作 时 就 必须 停 下 来 直到 写 缓 冲 中 有 一 个 空位 置 。 当 然 ， 如 果 存 储 器 完成 写 操作 的 速度 比 处 理 器 
产生 写 操作 的 速度 慢 ， 那么 再 多 的 缓冲 器 也 没有 用 ， 因 为 产生 写 操作 比 存储 系统 接收 它们 
要 快 。 

产生 写 操 作 的 速度 也 可 能 比 存储 器 接收 它们 的 速度 慢 ， 尽 管 这 样 ， 仍 有 可 能 发 生 阻 塞 。 当 写 操 
作 突 发 产生 时 ， 这 种 情况 就 会 发 生 。 为 了 减少 这 种 阻塞 的 发 生 ， 通 常 需 要 增加 处 理 器 写 缓冲 的 深度 。 

除了 写 直 达 ， 另 一 种 可 供 选 择 的 方法 为 写 回 (write-back) 。 在 写 回 机 制 中 ， 当 发 生 写 操作 
时 ， 新 值 仅仅 被 写 和 人 cache 块 中 。 只 有 当 修 改过 的 块 被 替换 时 才 需 要 写 到 较 低层 存储 结构 中 。 
写 回 机 制 可 以 提高 系统 的 性 能 ， 尤 其 是 当 处 理 器 产生 写 操作 的 速度 和 主 存 处 理 写 操 作 的 速度 一 
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样 快 甚至 更 快 时 ; 但 是 ， 写 回 机 制 的 实现 也 比 写 直 达 要 复杂 得 多 。 


人 写 缓 冲 : 一 个 保存 等 待 写 入 主 存 数据 的 缓冲 队列 。 
全 写 回 : 当 发 生 写 操作 时 ， 新 值 仅 仅 被 写 入 cache 块 中 ， 只 有 当 修 改过 的 块 被 替换 时 才 写 到 
较 低 层 存 储 结 构 中 。 


在 本 节 的 剩余 部 分 ， 我 们 介绍 实际 处 理 器 中 的 cache， 探 讨 它们 如 何 处 理 读 和 写 操 作 。 在 
5. 8 节 ， 我 们 会 对 写 操 作 进 行 更 详细 的 介绍 。 


著 | 精 解 写 操作 将 读 操作 中 不 存在 的 一 些 复 杂 情 况 引 入 了 cache。 这 里 我 们 讨论 其 中 的 两 种 
情况 : 写 缺 失 时 的 策略 以 及 使 用 写 回 机 制 的 cache 中 写 操作 的 有 效 执行 。 

考虑 在 写 直 达 机 制 下 的 cache 缺失 ， 最 常 使 用 的 策略 是 分 配 cache 中 的 一 块 ， 称 为 写 
分 配 (write allocate) 。 数 据 块 从 主 存 中 取 回 ， 并 且 在 该 块 中 的 恰当 区 域 重 写 数 据 。 另 一 种 
策略 则 是 只 更 新 主 存 中 块 的 一 部 分 ， 而 不 写 入 cache 中 ， 这 种 方法 称 为 写 不 分 配 (no write 
allocate) 。 这 种 机 制 产生 的 原因 是 ， 有 时 程序 会 写 整个 块 ， 就 像 有 时 操作 系统 会 将 存储 器 
中 的 一 页 全 部 填 零 一 样 。 在 这 种 情况 下 ， 由 初始 的 写 缺 失 引 起 的 取 数 据 就 不 必要 了 。 一 些 
计算 机 允许 基于 每 一 页 来 更 改写 分 配 策略 。 

使 用 写 回 策略 的 cache 比 使 用 写 直 达 策 略 的 cache 实现 有 效 存储 要 复杂 得 多 。 在 写 直 
达 的 cache 中， 可 以 将 数据 写 入 cache 并 且 读 标记 ， 如 果 标 记 不 匹配 ， 就 发 生 缺 失 。 由 于 
cache 采用 写 直达 策略 ， 在 cache 中 重 写 数据 块 并 不 会 有 危险 ， 因 为 主 存 中 存储 了 正确 的 
值 。 在 写 回 cache 中 ， 如 果 cache 中 的 数据 被 重 写 过 并 且 此 时 发 生 缺 失 ， 就 必须 把 整 块 写 
回 主 存 中 。 如 果 在 不 知道 cache 是 否 命中 (在 写 直 达 的 cache 中 可 以 知道 ) 的 情况 下 就 简 
单 地 根据 存储 指令 重 写 块 ， 我 们 就 破坏 了 块 的 内 容 ， 而 块 本 身 也 没有 在 存储 层 的 较 低 层 进 
行 备份 。 

在 写 回 cache 中 ， 由 于 无 法 重 写 块 ， 存 储 操作 需要 两 个 周期 (一 个 周期 用 来 检查 命中 
情况 ， 下 一 个 周期 才 真 正 执行 写 操作 ) ， 或 者 需要 一 个 写 缓 冲 来 保存 数据 一 一 通过 流水 线 
有 效 地 使 存储 操作 只 花费 一 个 周期 。 如 果 使 用 存储 缓冲 区 ， 处 理 器 在 正常 的 cache 访问 周 
期 内 查找 cache 并 把 数据 放 入 存储 缓冲 区 中 。 如 果 cache 命中 ， 在 下 一 个 还 没有 用 到 的 
cache 访问 周期 ， 新 数据 被 从 存储 缓冲 区 写 入 cache 中 。 

相 比 较 而 言 ， 在 写 直达 cache 中 ， 写 操作 总 是 可 以 在 一 个 周期 内 完成 。 我 们 读 标记 
位 ， 并 且 写 被 选择 块 的 部 分 区 域 。 如 果 标记 与 被 写 块 的 地 址 相同 ， 处 理 器 通常 可 以 继续 执 
行 ， 因 为 正确 的 块 已 经 被 更 新 过 了 。 如 果 标 记 与 被 写 块 的 地 址 不 同 ， 处 理 器 产生 写 缺 失 并 
去 取 对 应 于 该 地 址 块 的 剩余 部 分 。 

很 多 写 回 机 制 的 cache 也 使 用 写 缓 冲 ， 当 在 发 生 缺 失 替 换 一 个 被 修改 的 块 时 ， 写 缓冲 
可 以 起 到 降低 缺失 代价 的 作用 。 在 这 种 情况 下 ， 被 修改 的 数据 块 移入 与 cache 相 联 的 写 回 
缓冲 器 ， 同 时 从 主 存 中 读 出 所 需要 的 数据 块 。 随 后 ， 写 回 缓冲 器 再 将 数据 写 入 主 存 。 如 果 
下 一 次 缺失 没有 立刻 发 生 ， 当 脏 数据 块 必须 被 替换 时 ， 这 种 方法 可 以 减少 一 半 的 缺失 
代价 。 


5. 3.4 一 个 cache 的 例子 : 内 置 FastMATH 处 理 器 


内 置 FastMATH 处 理 器 是 一 个 快速 的 嵌入 式微 处 理 器 ， 它 采用 MIPS 架构 ，cache 实现 很 简单 。 
在 本 章 的 最 后 ， 我 们 将 介绍 ARM 和 Intel 微 处 理 器 中 更 为 复杂 的 cache 设计 ， 但 是 出 于 教学 的 目 
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的 ,我 们 首先 分 析 这 个 简单 的 实例 。 图 5-12 给 出 了 内 置 FastMATH 处 理 器 数据 cache 的 结构 。 


地 址 ( 显示 位 的 位 置 ) 
3 10 
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命中 标记 18 8 4 字 节 偏 移 数据 






































图 5-12 ”内置 FastMATH 处 理 器 的 16KiB 的 cache，cache 中 有 256 块 ， 每 块 16 个 字 。 标 记 域 是 18 位 ， 索 
引 域 是 8 位 ， 另 有 一 个 4 位 (2 ~5 位) 的 域 用 来 索引 块 ， 并 使 用 一 个 16 选 1 的 多 路 选择 器 从 
块 中 选择 所 需 的 字 。 实 际 上 ， 为 了 消除 多 路 选择 器 ，cache 使 用 一 个 大 容量 的 RAM 单独 存放 数 
据 ， 一 个 更 小 的 RAM 则 用 来 存放 标记 ， 大 容量 数据 RAM 所 需 的 额外 地 址 位 由 块 偏 移 提供 。 这 
样 ， 大 容量 RAM 中 字 长 为 32 位 ， 字 数 必须 为 cache 中 块 数 的 16 倍 


该 处 理 器 采用 12 级 流水 线 结构 。 当 以 峰值 速度 执行 时 ， 处 理 器 每 个 时 钟 周期 可 以 请 求 一 
个 指令 字 和 一 个 数据 字 。 为 了 满足 不 阻塞 流水 线 的 需求 ， 使 用 了 分 离 的 指令 cache 和 数据 
cache。 每 个 cache 容量 为 16KiB ， 即 4 096 个 字 ， 每 块 有 16 个 字 。 

对 cache 的 读 请 求 很 简单 ， 由 于 使 用 了 分 离 的 指令 cache 和 数据 cache， 读 写 每 个 cache 都 
需要 各 自 独立 的 控制 信号 〈 记 住 当 发 生 缺 失 时 ， 需 要 更 新 指令 cache) 。 因 此 ， 对 任何 一 
cache 执行 读 请 求 的 步骤 如 下 : 

1) 将 地 址 送 到 适当 的 cache 中 去 ,该 地 址 来 自 程序 计数 器 〈 对 于 指令 访问 ) ， 或 者 来 自 于 
ALU (对 于 数据 访问 )。 

2) 如 果 cache 发 出 命中 信号 ， 请 求 的 字 就 出 现在 数据 线 上 。 由 于 在 请 求 的 数据 块 中 有 16 
个 字 ， 因 此 需要 选择 那个 正确 的 字 。 块 索引 域 用 来 控制 多 路 选择 器 (如 图 5-12 底部 所 示 )， 从 
检索 到 的 块 中 选择 16 个 字 中 的 某 个 字 。 

3) 如 果 cache 发 出 缺失 信和 号， 我们 把 地 址 送 到 主 存 。 当 主 存 返 回 数据 时 ， 把 它 写 人 cache 
后 再 读 出 以 满足 请 求 。 

对 于 写 操作 ， 内 置 处 理 器 同时 提供 写 直 达 和 写 回 机 制 ， 由 操作 系统 来 决定 某 种 
应 用 该 使 用 哪个 机 制 。 它 有 一 个 只 包含 一 项 的 写 缓冲 。 

ee te a cache 结构 的 缺失 率 是 怎样 的 呢 ? 图 5-13 给 出 了 指令 cache 
和 数据 cache 的 缺失 率 。 综 合 缺 失 率 是 在 考虑 了 指令 和 数据 的 不 同 访问 频率 后 每 个 程序 每 次 访 
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问 的 实际 缺失 率 。 
指令 缺失 率 数据 缺失 率 综合 缺失 率 
0 由 4 





图 5-13 内 置 FastMATH 处 理 器 执行 SPEC CPU2000 测试 程序 时 指令 和 数据 的 近似 缺失 率 。 综 合 缺失 率 
是 将 16KiB 的 指令 cache 和 16KiB 的 数据 cache 结合 起 来 考虑 的 实际 缺失 率 。 它 是 以 指令 和 数 
据 访 问 频 率 为 权重 ， 分 别 考虑 指令 和 数据 缺失 率 后 得 到 的 
尽管 缺失 率 是 cache 设计 的 一 个 重要 标准 ， 但 最 终 的 衡量 标准 是 存储 系统 对 程序 执行 时 间 
的 影响 。 我 们 将 简要 介绍 缺失 率 与 执行 时 间 之 间 的 关系 。 


加 | 精 解 混合 cache 容量 等 于 两 个 分 离 cache (split cache) 容量 的 总 和 。 通 常 来 说 ， 混 合 cache 
具有 较 高 的 命中 率 ， 其 原因 是 混合 cache 没有 将 指令 用 的 cache 块 数 与 数据 用 的 cache 块 数 严 
格 区 分 出 来 。 不 过 ， 很 多 处 理 器 使 用 分 离 的 指令 和 数据 cache 以 提高 cache 的 带宽 (同时 也 可 
以 减少 冲突 引起 的 缺失 ， 见 5.8 节 )。 

下 面 是 与 内 置 FastMATH 处 理 器 中 cache 容量 相同 的 cache 的 缺失 率 ， 混 合 cache 的 容 
量 等 于 两 个 分 离 cache 容量 之 和 。 

e 总 的 cache 容量 : 32KiB。 

e 分 离 cache 的 实际 缺失 率 : 3.24% 。 

e 混合 cache 的 缺失 率 : 3.18% 。 

分 离 cache 的 缺失 率 只 是 稍 差 一 点 。 

通过 支持 指令 和 数据 同时 访问 来 使 cache 带宽 加 倍 ， 这 一 优点 很 容易 就 克服 了 缺失 率 稍 
微 增加 的 缺点 。 这 一 事实 也 提醒 我 们 缺失 率 不 是 衡量 cache 性 能 的 唯一 标准 ， 正 如 5.4 节 所 示 。 


今 。 分离 cache: 一 级 cache 由 两 个 独立 的 cache 组 成 ， 两 者 可 以 并 行 工 作 ， 一 个 处 理 指令 ， 另 一 个 
处 理 数 据 。 


5; 3.5 人 小结 


前 面 我 们 从 介绍 最 简单 的 cache 开始 : 每 块 只 有 一 个 字 的 直接 映射 cache。 在 这 样 的 cache 
结构 中 ， 命 中 和 缺失 都 很 简单 ， 因 为 每 个 字 都 明确 地 被 写 人 到 一 个 位 置 ， 同 时 每 个 字 都 有 单独 
的 标记 。 为 了 保持 cache 和 主 存 的 一 致 性 ， 可 以 使 用 写 直达 机 制 ， 这 样 ， 每 次 对 cache 进行 写 
操作 都 会 引起 主 存 的 更 新 。 不 同 于 写 直达 机 制 ， 写 回 机 制 仅 在 cache 中 有 需要 被 替换 的 块 时 才 
将 相应 的 块 复制 到 主 存 中 去 。 在 后 面 的 章节 中 我 们 将 进一步 讨论 这 一 机 制 。 

为 了 利用 空间 局 部 性 ，cache 中 的 块 大 小 必须 大 于 一 个 字 。 使 用 较 大 的 块 可 以 降低 缺失 率 ， 
减少 cache 中 与 数据 存储 量 相关 的 标记 存储 量 ， 从 而 提高 cache 的 效率 。 尽 管 块 容量 的 增 大 可 
以 降低 缺失 率 ， 但 同时 也 会 带 来 缺失 代价 的 增加 。 如 果 缺 失 代价 与 块 容量 成 线性 关系 增长 ， 那 
么 较 大 的 数据 块 很 轻易 就 能 导致 性 能 变 差 。 

为 了 避免 性 能 损失 ， 可 以 通过 增加 主 存 的 带宽 来 更 高 效 地 传输 数据 块 。 增 加 DRAM 外 部 带 
宽 最 常用 的 方法 包括 : 增加 存储 器 位 宽 和 交叉 存 取 。DRAM 设计 者 还 改进 了 处 理 器 和 存储 器 之 
间 的 接口 以 增加 突 发 模式 下 传输 的 带宽 ， 以 减 小 使 用 更 大 cache 块 带 来 的 开销 。 


o 吕 小 测验 
存储 系统 的 速度 影响 了 设计 人 员 如 何 选择 cache 块 的 大 小 。 下 面 哪些 cache 设计 者 的 指导 
思想 是 正确 的 ? 
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1. 存储 器 延迟 越 短 ，cache 块 越 小 。 
2. 存储 器 延迟 越 短 ，cache 块 越 大 。 
3. 存储 器 带宽 越 高 ，cache 块 越 小 。 
4. 存储 器 带宽 越 高 ，cache 块 越 大 。 


5.4 cache 性 能 的 评估 和 改进 


在 这 一 节 中 ,我 们 首先 探讨 评估 和 分 析 cache 性 能 的 方法 。 随 后 我 们 对 两 种 改进 cache 性 
能 的 不 同 技术 进行 研究 。 第 一 种 技术 是 通过 减少 存储 器 中 不 同 数据 块 争 用 cache 中 同一 位 置 的 
概率 来 降低 缺失 率 。 第 二 种 技术 通过 在 存储 器 层次 结构 中 额外 增加 一 层 来 减少 缺失 代价 。 这 种 
技术 被 称 为 多 级 高 速 缓存 〈multilevel caching) ， 最 初出 现在 1990 年 售 价 超过 100 000 美元 的 高 
端 计算 机 中 ， 此 后 该 技术 被 广泛 应 用 于 个 人 移动 设备 中 ， 而 售 价 上 只 有 几 百 美元 。 

CPU 时 间 可 以 划分 为 CPU 执行 程序 花费 的 时 钟 周期 和 CPU 等 待 存储 系统 花费 的 时 钟 周期 。 
通常 来 说 ， 我 们 假定 cache 访问 命中 的 开销 是 CPU 正常 执行 周期 的 一 部 分 。 因 此 ， 

CPU 时 间 = (CPU 执行 时 钟 周期 数 + 存储 器 阻塞 的 时 钟 周期 数 ) x 时 钟 周期 

我 们 假设 存储 器 阻塞 的 时 钟 周期 数 主 要 来 自 于 cache 缺失 ， 同 时 我 们 将 讨论 限制 在 存储 系 
统 的 简化 模型 上 。 在 实际 的 处 理 器 中 ,由 读 、 写 操作 引起 的 阻塞 可 能 十 分 复杂 ， 并 且 对 性 能 的 
准确 预测 通常 需要 对 处 理 器 和 存储 系统 进行 细致 的 模拟 。 

存储 器 阻塞 的 时 钟 周期 数 可 以 被 定义 为 读 操作 与 写 操作 引起 阻塞 的 时 钟 周 期 数 之 和 : 

存储 器 阻塞 时 钟 周期 数 = 读 操 作 引 起 阻塞 的 时 钟 周期 数 + 写 操作 引起 阻塞 的 时 钟 周期 数 

读 操作 阻塞 的 时 钟 周期 数 可 以 根据 每 个 程序 中 读 的 次 数 、 读 操作 发 生 缺 失 时 的 代价 (缺失 
处 理 需要 的 时 钟 周期 ) 以 及 读 缺 失 率 来 定义 : 

读 操作 阻塞 的 时 钟 周期 数 = 〈 读 的 次 数 / 程序 数 ) x 读 缺 失 率 x 读 缺 失 代 价 

写 操作 的 情况 就 要 复杂 一 些 。 对 于 写 直 达 机 制 ， 有 两 种 情况 引起 阻塞 : 一 种 是 写 缺 失 ， 它 
通常 要 求 在 继续 执行 写 操作 之 前 取 回 数据 块 〈 详 情 参 考 5. 3. 3 节 精 解 中 关于 写 处 理 的 详细 介 
绍 ) ; 另 一 种 是 写 缓冲 区 阻塞 ， 当 写 操作 发 生 时 写 缓 冲 已 满 则 可 能 发 生 这 种 情况 。 因 此 ， 写 操 
作 阻 塞 的 时 钟 周 期 数 为 这 两 种 情况 阻塞 的 时 钟 周 期 数 之 和 : 

写 操作 阻塞 的 时 钟 周期 数 = [( 写 的 次 数 / 程序 数 ) x 写 缺 失 率 x 写 缺 失 代 价 ] + 写 缓冲 区 阻塞 

由 于 写 缓冲 区 阻塞 不 仅仅 取决 于 频率 ， 还 取决 于 写 操作 的 执行 时 机 ， 因 此 这 样 的 阻塞 不 能 
由 一 个 简单 公式 来 计算 。 幸 运 的 是 ， 如 果 系 统 中 写 缓冲 区 的 深度 合适 〈 例 如 ，4 个 或 多 个 字 )， 
并 且 存 储 器 接收 写 操 作 的 速率 要 明显 超过 程序 中 平均 写 频 率 〈 例 如， 是 它 的 两 倍 ) ， 写 缓冲 区 
的 阻塞 将 变 得 很 少 ， 可 以 将 其 忽略 。 如 果 系 统 不 能 达到 这 些 标准 ， 则 说 明 它 设计 得 不 够 好 ; 设 
计 人 员 应 该 使 用 更 深 的 写 缓冲 区 或 者 使 用 写 回 机 制 。 

写 回 机 制 同样 可 能 产生 额外 的 阻塞 。 阻 塞 的 产生 原因 是 ， 当 数据 块 被 替换 时 需要 将 其 写 回 
到 主 存 中 。 我 们 将 在 5. 8 节 中 对 此 进行 更 详细 的 讨论 。 

在 大 部 分 写 直达 cache 结构 中 ， 读 和 写 的 缺失 代价 是 一 样 的 〈 都 是 从 主 存 中 取 回 数据 块 的 
时 间 ) 。 如 果 假 设 写 缓冲 区 阻塞 可 以 被 忽略 ， 那 么 我 们 可 以 合并 读 写 操作 并 共用 一 个 缺失 率 和 
缺失 代价 : 

存储 器 阻塞 时 钟 周期 数 = (存储 器 访问 次 数 /程序 数 ) x 缺失 率 x 缺失 代价 
也 可 以 表示 如 下 : 
存储 器 阻塞 时 钟 周期 数 = (指令 数 / 程序 数 ) x(〈 缺 失 数 / 指令 ) x 缺失 代价 
让 我 们 通过 一 个 简单 的 例子 来 帮助 理解 cache 的 性 能 对 处 理 器 性 能 的 影响 。 
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加 例题 计算 cache 性 能 
假设 指令 cache 的 缺失 率 为 2% ,数据 cache 的 缺失 率 为 4% ， 处 理 器 的 CPI 为 2， 没 有 存 
储 器 阻塞 ， 且 每 次 缺失 的 代价 为 100 个 时 钟 周期 ， 那 么 配置 一 个 从 不 发 生 缺 失 的 理想 的 cache， 
处 理 器 的 速度 快 多 少 ” 这 里 假定 全 部 load 和 store 的 频率 为 36% 。 
困 答案 
根据 指令 计数 器 (7) ， 由 指令 缺失 引起 的 时 钟 周期 损失 数 为 
指令 缺失 时 钟 周 期 数 = Tx2% x100 = 2.00 xI 
由 于 所 有 load 和 store 指令 出 现 的 频率 为 36% ， 我 们 可 以 计算 出 数据 缺失 引起 的 时 钟 周期 
损失 数 : 
数据 缺失 时 钟 周期 数 = Tx36% x4% x100 =1.44x7 
总 的 存储 器 阻塞 时 钟 周期 数 为 2. 00 x7+1.44 xT=3.44 x7， 每 条 指令 的 存储 器 阻塞 超过 3 
个 时 钟 周 期 。 因 此 ， 包 括 存储 器 阻塞 在 内 的 总 的 CPI 是 2 +3.44 =5.44。 由 于 指令 计数 器 或 时 
钟 频率 都 没有 改变 ，CPU 执行 时 间 的 比率 为 
有 阻塞 的 CPU 执行 时 间 /配置 理想 cache 的 CPU 执行 时 间 
= (7xCPIsz* x 时 钟 周期 )/(7x CPIswn x 时 钟 周期 ) 
= CPIsa/CPIlsn = 5.44/2 
因此 ， 配 置 了 理想 的 cache 的 CPU 的 性 能 是 原来 的 5.44/2 =2.72 倍 。 口 


如 果 处 理 器 速度 很 快 ， 而 存储 系统 却 不 快 ， 又 会 发 生 什么 ? 在 第 1 章 介 绍 的 Amdahl 定律 
提醒 我 们 这 样 一 个 事实 : 存储 器 阻塞 花费 的 时 间 占 据 执行 时 间 的 比例 会 上 升 。 一 些 简 单 的 例子 
会 说 明 这 个 问题 有 多 严重 。 假 设 我 们 加 速 上 面 例子 中 的 计算 机 ， 通 过 改进 流水 线 ， 在 不 改变 时 
钟 频率 的 情况 下 ,将 CPI 从 2 降 到 1。 那么 具有 cache 缺失 的 系统 的 CPI 为 1 +3.44 =4.44， 而 
配置 理想 的 cache 的 系统 性 能 是 它 的 

4.44/1 = 4. 44 
倍 。 存 储 器 阻塞 所 花费 的 时 间 占 据 整 个 执行 时 间 的 比例 则 从 
3.44/5.44 = 63% 
上 升 到 
3.44/4.44 = 77% 

同样 ， 仅 仅 提高 时 钟 频率 而 不 改进 存储 系统 也 会 因 cache 缺失 的 增加 而 加 剧 性 能 的 流失 。 

前 面 的 例子 和 等 式 是 建立 在 命中 时 间 不 计 人 计算 cache 性 能 的 假设 之 上 。 很 明显 ， 如 果 命 
中 时 间 增 加 ， 那 么 从 存储 系统 中 存 取 一 个 字 的 总 时 间 也 会 增加 ， 继 而 导致 处 理 器 时 钟 周期 的 增 
加 。 我 们 还 将 看 到 其 他 一 些 实例 以 了 解 导致 命中 时 间 略 微 增 加 的 原因 ， 一 个 例子 是 cache 容量 
的 增加 。 显 然 ， 一 个 大 容量 的 cache 访问 时 间 也 较 长 ， 就 像 图 书馆 的 书桌 很 大 (有 3m ) ， 要 找 
到 桌 上 的 一 本 书 必然 要 花费 很 长 的 时 间 。 命 中 时 间 的 增加 相当 于 又 增加 了 一 级 流水 线 ， 因 为 
cache 命中 操作 需要 多 个 时 钟 周期 完成 。 尽 管 计算 深度 流水 对 性 能 的 影响 会 更 复杂 ,但 在 某 种 
程度 上 ， 大 容量 cache 命中 时 间 的 增加 反而 会 影响 命中 率 的 改进 使 其 不 起 作用 ， 从 而 导致 处 理 
器 性 能 的 下 降 。 

为 了 分 别 找到 在 命中 和 缺失 情况 下 数据 访问 时 间 对 性 能 影响 的 证 据 ， 设 计 人 员 有 时 会 使 用 
平均 存储 器 访问 时 间 (AMAT) 作为 检测 cache 设计 的 方法 。 平 均 存 储 器 访问 时 间 是 综合 考虑 
了 命中 、 缺 失 以 及 不 同 访问 的 频率 后 得 出 的 访 存 平均 时 间 ， 它 等 于 下 面 的 公式 : 

AMAT = 命中 时 间 + 缺失 率 x 缺失 代价 
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加 例题 .计算 平均 存储 器 访问 时 间 


处 理 器 时 钟 周期 的 时 间 为 Ins， 缺 失 代价 是 20 个 时 钟 周期 ， 缺 失 率 为 每 条 指令 0. 05 次 缺 
失 ，cache 访问 时 间 (包括 命中 判断 ) 为 1 个 时 钟 周 期 。 假 设 读 操作 和 写 操 作 的 缺失 代价 相同 
并 且 忽 略 其 他 写 阻 塞 。 请 计算 AMAT。 


o 答案 
每 条 指令 的 平均 存储 器 访问 时 间 为 
AMAT = 命中 时 间 + 缺失 率 x 缺失 代价 = 1 + 0.05 x20 = 2 个 时 钟 周期 
即 2ns。 口 


下 一 节 我 们 将 讨论 另 一 种 cache 组 织 结构 ， 这 种 结构 减少 了 缺失 率 ， 但 是 有 时 可 能 会 增加 
命中 时 间 。 在 5. 15 节 中 我 们 将 给 出 其 他 的 例子 。 


5.4.1 通过 更 灵活 地 放置 块 来 减少 cache 缺失 


到 目前 为 止 ， 我 们 将 一 个 块 放 入 cache 中 ,采用 的 是 最 简单 的 定位 机 制 : 一 个 块 只 能 放 到 
cache 中 一 个 明确 的 位 置 。 正 如 前 面 所 述 ， 这 种 方法 称 为 直接 映射 ， 因 为 存储 器 中 任何 一 块 都 
被 直接 映射 到 存储 器 层次 结构 中 较 高 层 的 唯一 位 置 。 实 际 上 ， 有 一 整套 放置 块 的 方法 。 直 接 映 
射 ， 是 一 种 极端 的 情况 ， 此 时 一 个 块 被 精确 地 放 到 一 个 位 置 。 

另 一 种 极端 方式 是 : 一 个 块 可 以 被 放置 在 cache 中 的 任何 位 置 。 这 种 机 制 称 为 全 相 联 
(fully associative) ， 因 为 存储 器 中 的 块 可 以 与 cache 中 任何 一 项 相关 。 在 全 相 联 cache 中 要 找 一 
个 指定 的 块 ， 由 于 该 块 可 能 被 存放 在 cache 中 的 任何 位 置 ， 因 此 需要 检索 cache 中 所 有 的 项 。 
为 了 使 检索 更 加 有 效 ， 它 是 由 一 个 与 cache 中 每 个 项 都 相关 的 比较 器 并 行 完成 的 。 这 些 比较 器 
加 大 了 硬件 开销 ， 因 而 ， 全 相 联 只 适合 块 数 较 少 的 cache。 

介 于 直接 映射 和 全 相 联 之 间 的 设计 是 组 相 联 (set associative) 。 在 组 相 联 cache 中 ， 每 个 
块 可 被 放置 的 位 置 数 是 固定 的 。 每 个 块 有 个 位 置 可 放 的 cache 被 称 作 n 路 组 相 联 cache。 一 
个 nn 路 组 相 联 cache 由 很 多 个 组 构成 ， 每 个 组 中 有 nn 块 。 根 据 索 引 域 ， 存储 器 中 的 每 个 块 对 
应 到 cache 中 唯一 的 组 ， 并 且 可 以 放 在 这 个 组 中 的 任何 一 个 位 置 上 。 因 此 ， 组 相 联 映射 将 直 
接 映射 和 全 相 联 映射 结合 起 来 : 一 个 块 首 先 被 直接 映射 到 一 个 组 ， 然 后 检索 该 组 中 所 有 的 
块 判断 是 否 匹 配 。 例 如 ， 图 5-14 是 根据 这 三 种 策略 ， 块 12 被 放置 在 一 个 容量 为 8 块 的 
cache 中 的 情况 。 


仿 “ 全 相 联 cache: cache 的 一 种 组 织 方 式 ， 块 可 以 放置 到 cache 中 的 任何 位 置 。 
令 。” 组 相 联 cache: cache 的 另 一 种 组 织 方 式 ， 块 可 以 放置 到 cache 中 的 部 分 位 置 (至 少 两 个 ) 。 


回想 直接 映射 的 cache， 一 个 存储 块 的 位 置 是 这 样 给 出 的 : 
( 块 号 ) mod (cache 中 的 块 数 ) 
而 在 组 相 联 cache 中 ， 包 含 存储 块 的 组 是 这 样 给 出 的 : 
( 块 号 ) mod (cache 中 的 组 数 ) 
由 于 该 块 可 能 被 放 在 组 中 的 任何 一 个 位 置 ， 因 此 组 中 所 有 块 的 标记 都 要 被 检索 。 而 在 全 相 
联 cache 中 ， 块 可 以 被 放 在 任何 位 置 ， 因 此 cache 中 全 部 块 的 标记 都 要 被 检索 。 
我 们 同样 可 以 把 所 有 的 块 定位 策略 看 成 是 组 相 联 的 一 个 特例 。 图 5-15 显示 了 一 个 8 块 的 
cache 可 能 的 相 联 结构 。 直 接 映射 cache 是 一 个 简单 的 一 路 组 相 联 cache: cache 的 每 项 有 一 
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块 ， 并 且 每 组 只 有 一 个 元 素 。 有 m 项 的 全 相 联 cache 可 以 看 成 是 一 个 简单 的 m 路 组 相 联 cache， 
它 只 有 一 个 组 ,组 里 有 m 块 ， 每 一 项 可 以 放 在 该 组 的 任何 一 块 中 。 


图 5-14 


图 5-15 


直接 映射 组 相 联 全 相 联 


本 


se | 
检索 


地 址 为 12 的 主 存 块 在 cache 中 的 位 置 ，cache 容量 为 8 块 ， 采用 直接 映射 、 组 相 联 以 及 全 相 联 机 制 。 
在 直接 映射 方式 下 ， 主 存 块 12 只 能 放置 在 cache 中 唯一 的 块 中 ,该 块 为 (12 mod 8) =4。 在 两 路 组 
相 联 cache 中 ， 有 4 个 组 ， 主 存 块 12 必须 放 在 第 (12mod 4) =0 组 中 ; 主 存 块 可 以 放 在 该 组 的 任何 位 
置 。 在 全 相 联 方式 下 ， 块 地 址 为 12 的 主 存 块 可 以 放 在 cache 中 8 个 块 的 任意 一 块 
一 路 组 相 联 
( 直接 映射 ) 
块 标记 数据 
0 





两 路 组 相 联 
组 标记 数据 标记 数据 





1 
2 
3 
4 
5 





WwW 一品 


[ea 


四 路 组 相 联 
组 标记 数据 标记 数据 标记 数据 标记 数据 
0 
1 


八路 组 相 联 
标记 数据 标记 数据 标记 数据 标记 数据 标记 数据 标记 数据 标记 数据 标记 数据 


一 个 拥有 8 个 块 的 cache 被 配置 成 直接 映射 、 两 路 组 相 联 、 四 路 组 相 联 以 及 全 相 联 结构 。cache 
中 块 的 总 数 等 于 组 数 乘 以 相 联 度 。 因 此 ， 对 于 一 个 固定 大 小 的 eache， 增 加 相 联 度 的 同时 减少 
了 组 数 ， 同 时 也 就 增加 了 每 组 的 块 数 。 对 于 容量 为 8 个 块 的 cache， 一 个 八路 组 相 联 的 cache 也 
就 等 同 于 一 个 全 相 联 cache 


提高 相 联 度 的 好 处 在 于 它 通常 能 够 降低 缺失 率 ， 如 下 例 所 示 。 而 主要 的 缺点 则 是 增加 了 命 
中 时 间 ， 稍 后 我 们 将 详细 讨论 。 
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加 例题 。cache 的 缺失 与 相 联 度 


假设 有 三 个 小 的 cache， 每 个 cache 都 有 4 个 块 ， 块 大 小 为 1 个 字 。 第 一 个 cache 是 全 相 联 
方式 ， 第 二 个 是 两 路 组 相 联 ， 第 三 个 是 直接 映射 。 若 按 以 下 地 址 0、8、0、6 、8 依次 访问 时 ， 














求 每 个 cache 的 缺失 次 数 。 
臣 | 答案 
直接 映射 cache 最 简单 ， 首 先 让 我 们 判断 每 个 地 址 对 应 的 cache 块 : 
0 (0 mod 4) =0 
6 (6 mod4) =2 
8 (8 mod 4) =0 


现在 ， 在 每 次 引用 后 我 们 填 人 cache 的 内 容 ， 空 白 项 表示 无 效 的 块 。 加 粗 的 项 表示 在 相关 
引用 中 ， 有 一 个 新 的 项 被 加 入 cache 中 ， 未 加 粗 的 项 则 表示 cache 中 旧 的 项 。 


: ， 引 
各 的 人 的 直人 中 /二 a 


主 存 [6] 



























Iolo|lm%|IoSo 


直接 映射 cache 的 5 次 访问 产生 5 次 缺失 。 
组 相 联 cache 有 两 组 (组 0 和 1)， 每 组 有 两 个 块 ， 我 们 首先 来 确定 每 个 块 地 址 映射 到 哪 




















一 组 : 
0 (0 mod 2) =0 
6 (6 mod 2) =0 
8 (8 mod 2) =0 


由 于 缺失 时 ， 我 们 需要 选择 替换 组 中 的 某 一 项 ， 因 此 需要 一 个 替换 规则 。 组 相 联 cache 通 

405 | 常会 选择 替换 一 组 中 最 近 最 少 使 用 的 块 ; 也 就 是 说 ， 在 过 去 最 久 的 时 间 用 到 的 那 一 块 将 被 替换 

( 稍 后 我 们 将 详细 讨论 其 他 替换 规则 ) 。 使 用 这 个 替换 策略 ， 每 次 引用 后 组 相 联 cache 中 的 内 容 
如 下 所 示 : 


引用 后 cache 中 的 内 容 
被 访问 的 存储 器 的 块 地 址 | 命中 /缺失 和 后 cache 


主 存 [0] 
主 存 [0] 


命中 主 存 [0] 


I | 3t] | | 








































~ ww | 
8 
0 
6 
8 
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注意 到 当 块 6 被 访问 时 ， 它 将 块 8 替换 掉 了 ， 因 为 比 起 块 0, 块 8 是 最 近 最 少 被 使 用 的 那 
一 块 。 两 路 组 相 联 cache 总 共有 4 次 缺失 ， 比 直接 映射 的 cache 少 一 次 。 

全 相 联 cache 有 4 个 块 ( 在 一 组 中 )， 存储器 中 任意 一 块 可 放 到 cache 的 任何 位 置 。 全 相 联 
、cache 性 能 最 好 ， 仅 有 3 次 缺失 。 





蔽 访问 的 存储 器 的 块 地 址 | 命中 x 缺失 , 引用 后 Cache 中 的 内 容 


主 存 [0] 主 存 [8] 
主 存 [8] 
主 存 [0] 一 主 存 [6] 
主 存 [0] 主 存 [8] | 主 存 [6] | 

对 于 这 一 系列 的 访问 ， 三 次 缺失 是 我 们 可 以 得 到 的 最 好 结果 ， 因 为 有 三 个 不 同 地 址 的 块 被 
访问 。 注 意 ， 如 果 cache 中 有 8 个 块 ， 两 路 组 相 联 cache 将 不 会 发 生 替 换 (请 读者 自己 验证 )， 


并 且 缺 失 次 数 与 全 相 联 cache 的 一 样 多 。 同 样 ， 如 果 有 16 块 ， 这 3 种 cache 会 有 相同 的 缺失 次 
数 。 上 面 的 例子 已 经 说 明了 在 判断 cache 性 能 时 ，cache 容量 和 相 联 度 不 能 分 开 考 虑 。 0 


相 联 度 能 使 缺失 率 下 降 多 少 呢 ? 图 5-16 显示 了 一 个 容量 为 64KiB ， 块 大 小 为 16 字 的 数据 
cache ， 当 相 联 度 从 直接 映射 到 八路 组 相 联 变化 时 性 能 的 改进 情况 。 从 一 路 组 相 联 到 两 路 组 相 
联 ， 缺失 率 下 降 了 大 约 15% ， 但 是 更 高 的 相 联 度 对 缺失 率 的 改善 就 很 小 了 。 


5.4.2 在 cache 中 查找 一 个 块 - 
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现在 ， 我 们 考虑 在 组 相 联 的 cache 中 如 何 查找 一 个 cache 块 。 正 如 在 直接 映射 cache 中 一 
样 ， 组 相 联 cache 中 每 一 块 都 包含 一 个 地 址 标记 用 来 给 出 块 地 址 。 在 被 选中 的 组 中 每 一 块 的 标 
记 都 要 进行 检测 ， 从 而 判断 是 否 和 来 自 处 理 器 的 块 地 址 相 匹配 。 图 5-17 解析 了 地 址 。 索 引 值 
用 来 选择 包含 所 需 地址 的 组 ， 该 组 中 所 有 块 的 标记 都 将 被 检索 。 由 于 速度 是 最 根本 的 ， 所 以 被 
选中 的 组 中 所 有 块 的 标记 并 行 检索 。 就 像 在 全 相 联 cache 中 一 样 ， 组 相 联 cache 使 用 顺序 检索 
将 使 得 命中 时 间 太 长 。 















| ”_ 相 联 度 。 ”| 数据 缺失 率 | 
| 
标记 | 索引 块 偏 移 
| 4 
| 

图 5-16 使 用 与 内 置 FastMATH 处 理 器 相似 的 cache ”图 5-17 组 相 联 或 者 直接 映射 cache 中 地 址 的 
结构 ， 相 联 度 从 一 路 到 八路 ,采用 SPEC 三 个 组 成 部 分 。 索 引 位 用 来 选择 一 
CPU2000 基准 测试 程序 测 出 的 数据 cache 缺 个 组 ,标记 位 用 来 和 选中 组 中 的 块 
失 率 。10 个 SPEC CPU2000 测试 程序 的 结果 进行 比较 来 选择 块 ， 块 偏 移 是 块 中 
来 自 Hennessy 和 Patterson (2003) 被 请 求 数据 的 地 址 


如 果 cache 总 容量 保持 不 变 ， 提 高 相 联 度 就 增加 了 每 组 中 的 块 数 ， 也 就 是 并 行 查 找 时 同时 
比较 的 次 数 : 相 联 度 每 增加 到 两 倍 就 会 使 每 组 中 的 块 数 加 倍 而 使 组 数 减 半 。 相 应 地 ， 相 联 度 每 
增加 到 两 倍 ， 检 索 位 就 会 减少 1 位 ,标记 位 增加 1 位 。 在 全 相 联 cache 中 ， 只 有 一 组 有 效 ， 所 
有 块 必须 并 行 检测 ， 因 此 没有 索引 ， 除 了 块 偏 移 地 址 ， 整 个 地 址 都 需要 和 每 个 cache 块 的 标记 
进行 比较 。 换 名 话说， 我 们 不 使 用 索引 位 就 可 以 查找 整个 cache。 
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在 直接 映射 cache 中 ， 只 需要 一 个 比较 器 ， 这 是 因为 每 一 项 只 能 对 应 cache 中 唯一 的 块 ， 
并 且 ， 我 们 通过 索引 就 能 很 简单 地 访问 cache。 图 5-18 是 一 个 四 路 组 相 联 cache， 需 要 4 个 比较 
器 以 及 一 个 4 选 1 的 多 路 选择 器 ， 用 来 在 选 定 组 中 的 4 个 成 员 之 间 进 行 选择 。cache 访问 包括 
检索 相应 的 组 ， 然 后 在 组 中 检测 标记 。 一 个 组 相 联 cache 的 开销 包括 额外 的 比较 器 以 及 由 于 对 
组 里 数据 块 进行 比较 和 选择 而 产生 的 延迟 。 


地 址 
3130 …1211109 8…3210 











图 5-18 实现 一 个 四 路 组 相 联 的 cache 需要 4 个 比较 器 和 一 个 4 选 1 的 多 路 选择 器 来 判断 被 选中 的 组 中 哪 
一 个 单元 (如 果 有 ) 与 标记 匹配 。 比 较 器 的 输出 通过 使 用 带 有 译 码 选择 信号 的 多 路 选择 器 在 选 
中 组 里 的 4 个 块 之 中 选择 一 个 数据 。 在 一 些 具体 实现 中 ，cache RAM 数据 部 分 的 输出 使 能 信号 
可 以 用 来 选择 驱动 输出 的 组 中 的 数据 项 。 输 出 使 能 信号 来 自 比 较 器 ， 使 得 匹配 的 单元 驱动 数据 
的 输出 。 这 种 结构 不 需要 使 用 多 路 选择 器 
在 任何 存储 器 层次 结构 中 选择 直接 映射 、 组 相 联 ， 还 是 全 相 联 映射 ， 需 要 在 缺失 代价 和 相 
联 度 实现 的 代价 之 间 进 行 权衡 ， 既 要 考虑 时 间 ， 也 要 考虑 额外 的 硬件 。 


团 | 精 解 ”内容 可 寻 址 存储 器 (Content Addressable Memory，CAM) 是 一 种 将 比较 器 和 存储 音 
元 结合 在 一 个 部 件 上 的 电路 结构 。 它 不 像 RAM 那样 根据 地 址 读数 据 ， 而 是 由 用 户 提供 数 
据 ， 然 后 CAM 查看 它 是 否 有 副本 并 且 返 回 匹配 行 的 索引 。CAM 的 出 现 意 味 着 设计 者 能 提 
供 更 高 的 相 联 度 ， 这 比 在 SRAM 和 比较 器 之 外 还 需要 构建 硬件 才能 实现 的 相 联 度 还 要 高 。 
在 2013 年 ，CAM 更 大 的 容量 和 功 耗 使 得 两 路 和 四 路 组 相 联 结构 一 般 采 用 标准 的 SRAM 和 
比较 器 构建 ， 八 路 以 及 更 多 路 组 相 联 的 结构 则 由 CAM 构建 。 


5. 4. 3 ”替换 块 的 选择 
当 直 接 映 射 的 cache 发 生 缺 失 时 ， 被 请 求 的 块 只 能 放置 于 cache 中 唯一 位 置 ， 而 原先 占据 
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那个 位 置 的 块 就 必须 被 替换 掉 。 在 相 联 的 cache 中 ， 被 请 求 的 块 放 置 在 什么 位 置 需要 进行 选 
择 ， 因 此 替换 哪 一 块 也 要 进行 选择 。 在 全 相 联 cache 中 ， 所 有 的 块 都 将 可 能 被 蔡 换 。 在 组 相 联 
cache 中 ， 我 们 将 在 选中 的 组 中 挑选 被 替换 的 块 。 

最 常用 的 方法 是 最 近 最 少 使 用 ( Least Recently Used，LRU) 法 ， 也 是 我 们 在 前 面 例子 中 使 
用 的 方法 。 在 LRU 算法 中 ， 被 蔡 换 的 块 是 最 久 没 有 使 用 的 那 一 块 。 前 面 组 相 联 的 例子 中 就 使 
用 了 LRU 算法 ， 这 也 是 为 什么 我 们 替换 主 存 (0) 那 块 而 不 是 主 存 (6)。 


全 最近 最 少 使 用 : 一 种 替换 策略 ， 总 是 替换 很 长 时 间 没 有 使 用 的 块 。 


LRU 蔡 换 算法 的 实现 是 通过 跟踪 每 一 块 的 相对 使 用 情况 。 对 于 一 个 两 路 组 相 联 cache， 跟 
踪 组 中 两 个 数据 项 的 使 用 情况 可 以 这 样 实现 : 在 每 组 中 单独 保留 一 位 ， 通 过 设置 该 位 指出 哪 一 
项 被 访问 过 。 当 相 联 度 提高 时 ，LRU 的 执行 就 变 得 困难 些 ; 在 5.8 节 中 , 我们 将 会 讨论 另 一 种 
蔡 换 机 制 。 


四， 例题 , 标记 位 大 小 与 组 相 联 

提高 相 联 度 需 要 更 多 比较 器 ， 同 时 cache 块 中 的 标记 位 数 也 需要 增加 。 假 设 一 个 cache 有 
4096 个 块 ， 块 大 小 为 4 个 字 ， 地 址 为 32 位， 请 分 别 计算 在 直接 映射 、 两 路 组 相 联 、 四 路 组 相 
联 和 全 相 联 映射 中 ，cache 的 总 组 数 以 及 总 的 标记 位 数 。 
四 答案 

由 于 块 大 小 为 16 ( =2 ) 字 节 ，32 位 地 址 域 中 的 32 -4 = 28 位 用 来 提供 索引 和 标记 位 。 
直接 映射 中 组 数 和 块 数 一 样 ， 由 于 log (4096) =12， 因 此 有 12 位 是 索引 位 ; 因此 总 的 标记 位 
数 是 (28 -12) x4096 =16 x4096 =66Kb。 

相 联 度 每 增加 1 倍 ， 组 数 就 会 减少 1/2 ， 因 此 用 来 索引 cache 的 位 数 也 要 相应 减 1， 而 标记 
位 则 是 增 1。 因 此 ， 对 于 一 个 两 路 组 相 联 cache， 有 2 048 个 组 ， 总 的 标记 位 数 为 (28 -11) x 
2 x2 048 =34 x2 048 =70Kb。 而 四 路 组 相 联 中 组 数 为 1024， 那 么 总 的 标记 位 数 为 (28 -10) x4 x 
1 024 =72 x1024 =74Kb。 

对 于 全 相 联 cache， 只 有 一 个 有 4 096 个 块 的 组 ， 标记 位 是 28 位 ， 因 此 总 的 标记 位 数 是 
28 x4096 xl=115Kb。 口 


5.4.4 使 用 多 级 cache 结构 减少 缺失 代价 


所 有 现代 计算 机 都 使 用 cache。 为 了 进一步 减 小 现代 处 理 器 高 时 钟 频率 与 日 益 增 长 的 
DRAM 访问 时 间 之 间 的 差距 ， 大 多 数 微 处 理 器 都 会 增加 额外 一 级 cache。 这 种 二 级 cache 通常 位 
于 芯片 内 ， 当 一 级 cache 缺失 时 就 会 访问 它 。 如 果 二 级 cache 中 包含 所 需要 的 数据 ， 那 么 一 级 
cache 的 缺失 代价 就 是 二 级 cache 的 访问 时 间 ， 这 要 比 访问 主 存 快 得 多 。 如 果 一 级 和 二 级 cache 
中 均 不 包含 所 需 的 数据 ， 就 需要 访 存 ， 这 样 就 会 产生 更 大 的 缺失 代价 。 

使 用 二 级 cache 后 ， 性 能 能 改进 多 少 ? 下 面 这 个 例子 将 会 告诉 我 们 。 


著 | 例题 * 多 级 cache 的 性 能 

假定 我 们 的 处 理 器 基本 的 CPI 为 1.0， 所 有 访问 在 一 级 cache 中 均 命 中 ， 时 钟 频率 为 4CHz。 
假设 主 存 访问 时 间 为 100ns， 其 中 包括 缺失 处 理 时 间 。 设 一 级 cache 中 每 条 指令 缺失 率 为 29 。 
如 果 增 加 一 个 二 级 cache， 命 中 或 缺失 访问 的 时 间 都 是 Sns， 而 且 容 量 大 到 必须 使 访问 主 存 的 缺 
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失 率 减 少 到 0.5% ， 这 时 的 处 理 器 速率 能 提高 多 少 ? 


oo 答案 

主 存 的 缺失 代价 为 

100ns/ (0. 25ns/ 时 钟 周 期 ) = 400 个 时 钟 周期 
只 有 一 级 cache 的 处 理 器 的 有 效 CPI 由 下 列 公式 给 出 : 
总 的 CPI = 1.0 + 每 条 指令 的 存储 器 阻塞 时 钟 周期 = 1.0 +2% x400 =9 

对 于 两 级 cache， 一 级 cache 缺失 时 可 以 由 二 级 cache 或 者 主 存 来 处 理 。 访 问 二 级 cache 时 

的 缺失 代价 为 
5ns/(0.25ns/ 时 钟 周期 ) = 20 个 时 钟 周期 

如 果 缺 失 能 由 二 级 cache 处 理 ， 那 么 这 就 是 整个 缺失 代价 。 如 果 缺 失 处 理 需要 访 存 ， 总 的 
缺失 代价 就 是 二 级 cache 和 主 存 的 访问 时 间 之 和 。 

因此 ， 对 一 个 两 级 的 cache， 总 的 CPI 是 两 级 cache 的 阻塞 时 钟 周 期 和 基本 CPI 的 总 和 : 

总 的 CPI =1 + 一 级 cache 中 每 条 指令 的 阻塞 + 二 级 cache 中 每 条 指令 的 阻塞 
=1+2% x20 +0.5% x400 =1+0.4+2.0 = 3.4 
因此 ， 有 二 级 cache 的 处 理 器 性 能 是 没有 二 级 cache 处 理 器 性 能 的 
9.0/3.4 = 2.6 

倍 。 

我 们 还 可 以 使 用 另 一 种 方法 来 计算 阻塞 时 间 。 在 二 级 cache 命中 的 阻塞 周期 为 (2% - 
0.5% ) x20 =0.3; 而 访问 主 存 的 阻塞 周期 必须 同时 包括 访问 二 级 cache 和 访问 主 存 的 时 间 ， 为 
0.5% x(20 +400) =2.1。 对 它们 求 和 为 1.0+0.3 +2.1， 同样 等 于 3.4。 O 


一 级 cache 和 二 级 cache 的 设计 思想 明显 不 同 ， 这 是 因为 对 于 单 级 cache， 男 一 级 cache 
的 存在 改变 了 最 佳 选择 。 特 别 是 两 级 cache 的 结构 使 得 一 级 cache 致力 于 减少 命中 时 间 获 得 
较 短 的 时 钟 周期 或 者 较 少 的 流水 级 ， 二 级 cache 则 主要 针对 改善 缺失 率 以 减少 长 时 间 的 访 存 
代价 。 

通过 将 每 一 级 cache 与 最 优化 单 级 cache 的 设计 进行 比较 ， 我 们 可 以 看 出 这 些 变化 对 两 
级 cache 的 影响 。 与 单 级 cache 相 比 ， 多 级 cache ( multilevel cache) 中 的 一 级 cache 通常 很 
小 。 另 外 ， 一 级 cache 的 块 容量 通常 也 很 小 ， 再 伴随 小 容量 的 cache 使 得 缺失 代价 降低 。 相 
比 之 下 ， 由 于 二 级 cache 的 访问 时 间 不 是 关键 ， 因 此 二 级 cache 的 容量 比 一 般 的 单 级 cache 要 
大 得 多 ， 块 容量 也 比 单 级 cache 中 的 要 大 。 它 还 经 常 使 用 比 一 级 cache 更 高 的 相 联 度 以 减少 
缺失 率 。 


多 ”多 级 cache: 存储 系统 由 多 级 cache 组 成 ， 而 不 仅仅 只 有 主 存 和 一 个 cache。 


团 ! 理解 程序 性 能 ”我们 用 尽 一 切 方法 对 冒 泡 排 序 (Bubble Sort) 、 快 速 排序 (Quicksort) 和 基 
数 排序 (Radix Sort) 等 进行 分 析 ， 希望 找到 最 好 的 排序 算法 。 图 5-19a 说 明了 使 用 基数 排序 
和 快速 排序 时 ， 指 令 执行 的 情况 。 果 然 ， 对 于 大 的 数组 ， 在 操作 次 数 上 ， 基 数 排序 比 快速 排 
序 要 有 优势 。 图 5-19b 是 每 个 排序 项 平均 所 需 的 时 间 ， 而 不 是 执行 的 指令 数 。 我 们 可 以 看 到 
开始 两 条 曲线 的 轨迹 与 图 5-19a 中 相似 ， 但 是 随 着 排序 数据 的 增加 ， 基 数 排序 的 曲线 开始 仿 
离 ， 这 是 为 何 ? 图 5-19c 用 每 项 排序 平均 cache 缺失 数 解答 了 这 个 问题 快速 排序 一 直 有 比 
基数 排序 少 得 多 的 每 项 缺失 数 。 
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指令 数 /项 





4 8 16 32 64 128 256 512 10242048 4096 
大 小 排序 项 的 数量 单位 是 K ) 


a) 


时 钟 周期 数 /项 











= = 


4 8 16 32 64 128 256 S512 1024 2048 4096 


大 小 排序 项 的 数量 单位 是 K ) 
b) 


cache 缺 失 数 /项 





4 8 16 32 64 128 256 512 10242048 4096 
大 小 排序 项 的 数量 单位 是 K) 


c) 


图 5-19 ”比较 快速 排序 和 基数 排序 。a) 每 个 排序 项 平均 执行 指令 数 ; b) 每 个 排序 项 平均 时 间 ; c) 每 个 
排序 项 平均 cache 缺失 数 。 数 据 来 自 于 LaMarca 和 Ladner 在 1996 年 的 一 篇 文章 。 由 于 这 些 结果 ， 
人 们 又 发 明了 新 版 本 的 基数 排序 ， 将 存储 器 层次 结构 考虑 进来 ， 以 重新 获得 算法 的 优势 ( 见 
5. 15 节 ) 。cache 优化 的 基本 思想 是 在 某 个 块 被 替换 前 ， 重 复 使 用 该 块 中 所 有 的 数据 


标准 算法 分 析 通 常会 忽视 存储 器 层次 结构 的 影响 ， 正 如 更 快 的 时 钟 频 率 和 摩尔 定律 让 体系 
结构 设计 者 从 指令 流 中 获取 所 有 的 性 能 ， 合 理 地 使 用 存储 器 层次 结构 是 获得 高 性 能 的 关键 。 如 
我 们 在 概述 中 所 说 的 ， 理 解 存储 器 层次 结构 的 行为 对 于 理解 当今 计算 机 的 程序 性 能 是 十 分 关 
键 的。 
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5. 4.5 通过 分 块 进 行 软件 优化 


由 于 存储 器 层次 对 程序 性 能 具有 非常 重要 的 影响 ， 因 此 许多 软件 优化 技术 通过 对 cache 中 
的 数据 进行 重用 ， 提 升 了 数据 的 时 间 局 部 性 并 因此 降低 缺失 率 ， 这 些 优化 技术 可 以 大 大 提高 
cache 的 性 能 。 

在 处 理 数组 时 ， 如 果 能 够 将 数组 元 素 按照 访问 顺序 存放 在 存储 器 中 ， 则 能 够 获得 很 好 性 
能 。 假 定 要 处 理 多 个 数组 ， 这 些 数 组 有 些 按 行 访问 ， 而 男 外 一 些 按 列 访问 。 因 为 在 每 次 循环 迭 
代 中 ， 既 有 按 行 访问 的 数组 ， 又 有 按 列 访问 的 数组 ， 因 此 无 论 采 用 按 行 存储 或 按 列 存储 的 方式 
都 不 能 解决 问题 。 

与 对 一 个 数组 进行 整 行 或 整 列 操作 不 同 ， 分 决算 法 对 子 矩 阵 (或 称 为 块 ) 进行 操作 。 其 
目标 是 在 数据 被 替换 出 去 之 前 ， 最 大 限度 地 对 已 装 入 cache 的 数据 进行 访问 ， 即 通过 提升 时 间 
局 部 性 的 方法 来 降低 cache 缺失 率 。 


例如 ，DGEMM 的 内 循环 (第 3 章 中 图 3-21 中 的 4~9 行 ) 如 下 : 
for imt j= O03 J < nT Fj) 
{ 
double cij = C[Li+j*n]; /* cij = C[Lij[j] */ 
for( int k = 0; k < n; k++ ) 
cij += A[i+kx*n] * BLk+j*n]; /* cij += AL[i][IkK]J*BLKkK][Ij] */ 
CLit+j*n] = cij; /* CLi][j] = cij */ 
} 


} 

该 程序 段 读 取 了 数组 B 中 的 所 有 N x N 个 元 素 ， 另 外 反复 读 取 了 数组 A 中 对 应 行 中 的 N 个 
元 素 ， 并且 对 数组 c 中 对 应 行 的 N 个 元 素 进行 了 写 操作 。( 注释 使 得 矩阵 的 行列 更 容易 识别 。) 
图 5-20 给 出 了 访问 三 个 数组 的 大 致 情况 。 一 个 深 色 阴影 表示 一 次 最 近 访问 的 元 素 ， 浅 色 阴 影 
表示 早期 访问 的 元 素 ， 而 白色 表示 还 没有 被 访问 的 元 素 。 


k 


Y 











图 5-20 三 个 数组 c、A、B 的 访问 情况 ，N =6，i =1。 数 组 元 素 的 访问 时 间 情 况 用 阴影 表示 : 白色 表 
示 该 元 素 未 被 访问 ， 浅 色 阴 影 表 示 早 期 访问 ， 深 色 阴 影 表 示 新 的 访问 。 与 图 5-21 相 比 ， 反 复 
读 取 A 和 B 的 元 素 以 计算 新 的 元 素 x。 行列 边 上 的 变量 i、j 和 k 用 于 表示 对 数组 的 访问 


很 明显 ， 缺 失 的 次 数 依赖 于 N 和 cache 的 容量 。 如 果 在 不 发 生 冲 突 的 前 提 下 三 个 NxN 算 
阵 的 所 有 元 素 都 在 cache 中 ， 则 没有 任何 问题 。 与 第 3 章 和 第 4 章 相 同 ,假定 DGEMM 中 的 和 矩 
阵 大 小 为 32 x32。 每 个 矩阵 有 32 x32 =1 024 个 元 素 ， 且 每 个 元 素 为 8 字 节 ， 因 此 这 三 个 矩阵 
将 占据 24KiB 的 空间 ， 这 意味 着 Intel Core i7 (Sandy Bridge) 中 32KiB 的 数据 cache 足够 使 用 。 

如 果 cache 中 能 够 保持 一 个 NxN 的 矩阵 和 一 个 长 度 为 的 行 , 则 A 的 第 大 行 和 数组 B 可 
驻 留 在 cache 中 。 如 果 cache 容量 再 小 ， 将 可 能 导致 B 和 C 访问 都 缺失 。 在 最 坏 情况 下 ，I 次 
操作 需要 2N +N 次 存储 器 字 的 访问 。 
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为 了 确保 正在 访问 的 元 素 能 够 在 cache 中 命中 ， 可 把 原先 的 程序 改 为 每 次 循环 迭代 只 计算 
一 个 子 和 矩阵 。 因 此 ， 可 通过 参数 BLOCKSIZE 使 得 第 4 章 图 4-80 中 的 DGEMM 程序 循环 处 理 大 
小 为 BLOCKSIZE 的 数组 ， 其 中 BLOCKSIZE 称 为 分 块 因子 (blocking factor) 。 

图 5-21 给 出 了 DGEMM 的 分 块 版 本 。do block 函数 使 用 三 个 新 的 参数 si 、sj 和 sk 表 
示 每 个 子 数组 的 起 始 位 置 。do_ block 的 内 层 循环 以 BLOCKSIZE 为 步 进 长 度 进行 计算 ， 而 不 
是 B 和 C 的 长 度 。gcc 优化 器 通过 “inling” 功 能 去 除 任何 调用 开销 ; 也 就 是 说 ， 它 将 直接 插入 
代码 以 避免 传统 的 参数 传递 和 返回 地 址 的 保存 与 恢复 。 


#define BLOCKSIZE 32 
void do_block (int n, int si, int sj, int sk, double *A, double 
*B, double *C) 
{ 
for (int i = si; i «< si+BLOCKSIZE; ++1i) 
tor (iat 5 SI 1 < StBLOCGKSTZE; 二 tj) 
{ 
double cij = CLi+j*n];/* cij = C[ij[j] */ 
for( int k = sk; k < sk+BLOCKSIZE; k++ ) 


‘OONOONPOMNDm 


cij += ALi+kxn] * BLk+j*n];/* cij+=A[i][k]*BLk][j] */ 


CE = ij CETLIY = etj */ 
} 
} 
void dgemm (int n, double* A, double* B, double* C) 


for ( int sj = 0; sj < n; sj += BLOCKSIZE ) 
for ( int si = 0; si < n; si += BLOCKSIZE ) 
for ( int sk = 0; sk < n; sk += BLOCKSIZE ) 
do block(n, si, sj, Sk, A B, Cs 








图 5-21 3-21 中 DGEMM 的 cache 分 块 版 本 。 假定 c 初始 化 为 0。do_block 函数 来 源 于 第 3 章 中 的 
基本 DCGEMM ， 使 用 了 新 参数 来 指明 大 小 为 BLOCKSIZE 的 子 矩阵 的 起 始 位 置 。gce 优化 器 通过 
内 联 的 do_block 函数 消除 函数 开销 


图 5-22 显示 了 使 用 分 块 之 后 对 三 个 数组 的 访问 情况 。 只 考虑 容量 失效 ， 访 问 存储 器 的 总 
字数 为 2N /BLOCKSIZE +N 次 ， 大约 降低 到 原来 的 1/BLOCKSIZE。 分 块 技术 同时 利用 了 空间 
局 部 性 和 时 间 局 部 性 ， 其 中 访问 A 时 利用 了 空间 局 部 性 ,访问 B 时 则 利用 了 时 间 局 部 性 。 

j k j 





图 5-22 当 BLOCKSIZE =3 时 数组 Cc、A 和 B 的 访问 时 间 。 注 意 , 与 图 5-20 相 比 ， 访 问 的 元 素 减少 了 


虽然 分 块 技术 的 目标 是 降低 cache 缺失 率 ， 但 是 分 块 技术 也 可 用 来 帮助 寄存 器 的 分 配 。 通 
过 采用 较 小 的 分 块 ， 使 得 一 个 块 可 以 驻 留 在 寄存 器 中 ,程序 中 可 以 将 load 和 store 操作 的 数量 
大 大 减少 ， 从 而 提高 性 能 。 

图 5-23 给 出 了 采用 分 块 技术 的 DGEMM 的 性 能 产生 的 影响 ， 其 中 和 矩阵 尺寸 逐渐 增加 。 可 以 看 
出 ， 当 矩阵 尺寸 增 大 到 不 能 在 cache 中 完全 容纳 这 三 个 矩阵 时 ， 性 能 下 降 为 最 优 情况 的 一 半 。 即 
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使 矩阵 斥 十 为 960 x960 时 (是 第 3 章 和 第 4 章 和 矩阵 尺寸 的 900 倍 ) ， 性 能 仅 下 降 了 不 到 10% 。 
国 32x32 。 目 160x160 回 480x480 口 960x960 
1.6 


GFLOPS 





图 5-23 ”未 优化 的 DGEMM (图 3-21) 和 采用 cache 分 块 技术 的 DCEMM (图 5-21) 的 性 能 比较 。 在 采 
用 cache 分 块 技 术 时 ， 和 矩阵 尺寸 由 32 x32 (三 个 矩阵 均 留 在 cache 中 ) 到 960 x960 


著 | 精 解 ”使 用 多 级 cache 会 产生 一 些 复杂 情况 。 首 先 ， 存 在 多 种 不 同类 型 的 缺失 以 及 相应 的 
缺失 率 。 在 “多 级 cache 的 性 能 ”的 例子 中 ， 我 们 看 见 了 一 级 cache 缺失 率 以 及 全 局 缺失 
率 (global miss rate) ， 即 在 所 有 级 cache 中 都 缺失 的 那 部 分 访问 。 同 时 还 有 二 级 cache 缺 
失 率 ， 是 二 级 cache 所 有 缺失 次 数 和 访问 次 数 的 比率 。 这 个 缺失 率 称 为 二 级 cache 的 局 部 
缺失 率 (local miss rate) 。 由 于 一 级 cache 过 滤 了 一 些 访 问 ， 特 别 是 那些 具有 较 好 的 空间 局 
部 性 和 时 间 局 部 性 的 访问 ， 这 就 使 得 二 级 cache 的 局 部 缺失 率 要 大 大 高 于 全 局 缺失 率 。 在 
“多 级 cache 的 性 能 ”的 例子 中 ， 可 以 计算 出 二 级 cache 的 局 部 缺失 率 为 0.5%/2% =25% 1 
幸运 的 是 ， 全 局 缺失 率 决定 了 访问 主 存 的 次 数 。 


允 ”全 局 缺失 率 : 在 多 级 cache 的 所 有 级 中 都 缺失 的 那 部 分 访问 。 
允 ”局 部 缺失 率 : 在 多 级 cache 中 ， 某 一 级 cache 的 缺失 率 。 


45] 团 | 精 解 乱 序 处 理 器 ( 见 第 4 章 ) 在 缺失 时 仍 能 执行 指令 ， 因 而 性 能 更 加 复杂 。 我 们 使 用 每 条 
2 指令 缺失 数 来 代替 指令 缺失 率 和 数据 缺失 率 ， 公 式 如 下 : 
存储 器 阻塞 周期 数 / 指令 数 = 缺失 数 / 指令 数 x (总 的 缺失 延迟 - 重 二 的 缺失 延迟 ) 
计算 重 全 的 缺失 延迟 没有 通用 的 方法 ， 因 此 对 乱 序 处 理 器 的 存储 器 层次 结构 进行 评估 需 
要 模拟 处 理 器 和 存储 器 层次 结构 。 只 有 观测 到 每 次 缺失 时 处 理 器 的 执行 情况 ， 我 们 才能 知道 
缺失 时 处 理 器 是 阻塞 下 来 等 待 数据 还 是 在 执行 其 他 工作 。 一 个 指导 方针 是 处 理 器 通常 会 隐藏 
在 一 级 cache 缺失 而 在 二 级 cache 命中 时 的 那 部 分 缺失 代价 中 ， 但 是 却 很 少 隐藏 二 级 cache 的 
缺失 代价 。 
oo 精 解 ”对 算法 性 能 的 挑战 在 于 : 对 相同 的 结构 采用 不 同 的 实现 方法 ， 包 括 cache 容量 、 相 联 
度 、 块 大 小 以 及 cache 的 数量 ， 都 会 使 得 存储 器 层次 结构 变 得 多 样 化 。 为 了 应 对 这 些 变化 ， 
近来 一 些 数值 库 将 它们 的 算法 变 得 参数 化 ， 通 过 实时 搜索 参数 空间 来 找到 特定 计算 机 上 的 最 
佳 组 合 。 这 种 方法 称 为 自动 调节 (autotuning) 。 


甲 小 测验 
有 关 多 级 cache 的 设计 ， 下 面 哪些 是 正确 的 ? 
1. 一 级 cache 更 关注 命中 时 间 ， 二 级 cache 则 更 关注 缺失 率 。 
2. 一 级 cache 更 关注 缺失 率 ， 二 级 cache 则 更 关注 命中 时 间 。 
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5.4.6 小 结 


这 一 节 集 中 讨论 了 4 个 问题 : cache 性 能 、 利 用 相 联 度 来 降低 缺失 率 、 利 用 多 级 cache 结构 来 
降低 缺失 代价 和 采用 软件 优化 技术 提高 cache 的 有 效 性 。 

存储 系统 对 程序 执行 时 间 有 着 重要 影响 。 存 储 器 阻塞 时 钟 周 期 数 取 决 于 缺失 率 和 缺失 代价 。 
在 5.8 节 中 将 会 看 到 我 们 面临 的 挑战 ， 就 是 如 何 降低 这 些 因 素 中 的 一 个 而 不 会 影响 到 存储 器 层次 
结构 中 的 其 他 关键 因素 。 

为 了 降低 缺失 率 ， 我 们 对 相 联 定位 方法 进行 研究 。 这 种 方法 通过 将 数据 块 更 灵活 地 放置 在 
cache 中 以 降低 缺失 率 。 全 相 联 机 制 允许 将 块 放 在 cache 中 的 任何 位 置 ， 但 是 仍然 需要 查找 cache 
中 的 每 一 块 以 找到 所 需 的 数据 块 。 较 高 的 成 本 使 得 大 容量 的 全 相 联 cache 的 实现 不 切实 际 。 而 组 
相 联 cache 则 更 加 可 行 ， 我 们 只 需要 在 索引 唯一 选中 的 组 中 进行 查找 。 组 相 联 cache 缺失 率 更 高 ， 
但 是 访问 速度 更 快 。 使 用 何 种 相 联 度 能 达到 最 佳 性 能 不 仅 取 决 于 技术 本 身 ， 还 取决 于 实现 的 
细节 。 

我 们 探讨 了 多 级 cache 技术 ， 它 通过 使 用 一 个 大 的 二 级 cache 来 处 理 一 级 cache 的 缺失 ， 从 而 
降低 了 缺失 代价 。 二 级 cache 已 经 逐渐 普遍 ， 这 是 因为 设计 者 发 现 由 于 硅 的 局 限 以 及 高 时 钟 频率 
的 要 求 ， 一 级 cache 的 容量 已 经 无 法 更 大 了 。 而 二 级 cache 的 容量 通常 是 一 级 cache 的 10 倍 甚至 
更 多 ， 因 而 能 处 理 很 多 一 级 cache 缺失 引起 的 访问 。 在 这 些 情况 下 ， 缺 失 代 价 就 是 二 级 cache 的 访 
问 时 间 (通常 小 于 10 个 处 理 器 周期 ) 而 不 是 主 存 访问 时 间 (通常 大 于 100 个 处 理 器 周期 ) 。 和 相 
联 度 考 虑 相似 ， 在 二 级 cache 容量 和 访问 时 间 之 间 的 权衡 取决 于 实现 过 程 中 的 很 多 方面 。 

最 后 ， 针 对 存储 器 层次 对 性 能 影响 的 重要 性 ， 我 们 讨论 了 如 何 对 算法 进行 变换 来 提高 cache 
性 能 ， 主 要 讨论 了 针对 大 数组 进行 分 块 的 技术 。 


5.5 可 信和 存储 器 层次 


本 章 前 面 所 有 的 讨论 集中 在 如 何 提高 存储 器 层次 的 性 能 上 ， 但 是 不 能 忘记 如 果 可 信 性 不 够 ， 
即使 速度 再 快 也 不 具有 吸引 力 。 正 如 在 第 1 章 所 述 ， 最 好 的 可 信和 性 方法 是 宛 余 技术 。 本 节 将 首先 
重 温 与 失效 相关 的 术语 定义 和 度量 ， 然 后 将 讲述 如 何 采用 元 余 技术 构造 可 靠 的 存储 器 。 


5. 5.1 失效 的 定义 


假定 有 某 类 服务 的 需求 ， 针 对 该 需求 ， 用 户 可 以 看 到 一 个 系统 在 两 种 服务 状态 之 间 做 出 
选择 : 

1) 服务 实现 : 交付 的 服务 与 需求 相符 。 

2) 服务 中 断 : 交付 的 服务 与 需求 不 符 。 

失效 导致 状态 1 到 状态 2 的 转换 ， 而 由 状态 2 转换 到 状态 1 的 过 程 称 为 恢复 。 失 效 可 以 是 永 
久 性 的 ， 也 可 以 是 间 软 性 的 。 间 欣 性 失效 更 加 复杂 一 些 ， 因 为 当 一 个 系统 因 间 吹 性 失效 在 两 个 状 
态 间 摇 摆 时 ,诊断 将 会 非常 困难 。 而 永久 性 失效 的 诊断 要 容易 许多 。 

这 种 定义 将 引出 两 个 术语 : 可 靠 性 和 可 用 性 。 

可 靠 性 是 一 个 系统 或 模块 能 够 持续 提供 用 户 需 求 的 服务 的 度量 ， 即 从 开始 使 用 到 失效 的 
时 间 间 隔 。 因 此 ， 平 均 无 故障 时 间 (mean time to failure，MTTF) 是 一 个 可 靠 性 度量 方法 。 
与 之 相关 的 一 个 术语 是 年 失效 率 (annual failure rate，AFR) ， 它 是 指 在 给 定 MTTF 情况 下 ， 
在 一 年 内 预期 的 器 件 失效 比例 。 由 于 从 MTTF 中 可 能 会 得 到 误导 性 的 结果 ， 因 此 AFR 会 获 
得 更 加 直观 的 结果 。 
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图 例题 磁盘 的 MTTF 和 AFR 

当今 的 一 些 磁盘 号 称 其 MTTF 为 1 000 000 小 时 ， 大 约 是 1000000/(365 x24) =114 年 ， 这 
意味 着 这 些 磁盘 永远 不 会 失效 。 运 行 搜索 引擎 等 网 络 服 务 的 仓储 式 计算 机 可 能 有 50 000 台 服 务 
器 ， 假 定 每 台 服 务 器 有 两 块 磁盘 ， 使 用 AFR 计算 每 年 将 会 有 多 少 块 磁盘 失效 。 
图 1 答案 

一 年 有 365 x 24 =8 760 小 时 。1 000 000 小 时 的 MTTF 意味 着 AFR 为 8 760/1 000 000 = 
0.876% 。 由 于 系统 中 有 100 000 块 磁盘 ， 因 此 每 年 将 有 876 块 磁盘 失效 ， 即 平均 每 天 有 超过 两 
块 磁盘 失效 ! 口 


服务 中 断 使 用 维修 平均 时 间 (mean time to repair，MTTR ) 来 度量 。 失效 间隔 平均 时 间 
(mean time between failure，MTBF) = MTTF + MTTR ,虽然 MTBF 广泛 应 用 ，MTTF 却 更 加 确切 。 
可 用 性 是 指 系统 正常 工作 时 间 在 连续 两 次 服务 中 断 间 隔 时 间 中 所 占 的 比例 : 

可 用 性 = MTTF/(MTTF + MTTR) 

需要 注意 的 是 ， 可 靠 性 和 可 用 性 是 可 以 量化 的 ， 而 可 信 性 是 不 可 量化 的 。 与 增加 MTTF 类 
似 , 减少 MTTR 同样 可 以 提高 可 用 性 。 例 如 ， 可 以 采用 故障 检测 、 诊 断 和 修复 的 工具 来 减少 故 
障 维修 花费 的 时 间 ， 从 而 提高 可 用 性 。 

我 们 希望 系统 具有 很 高 的 可 用 性 。 一 种 简化 的 表示 方法 是 “每 年 中 可 用 性 的 9 的 数量 ”。 
例如 ， 一 个 很 好 的 网 络 服务 器 可 提供 4 个 或 5 个 9 的 可 用 性 。 一 年 有 365 x24 x60=526 000 分 
钟 ， 简 化 表示 如 下 : 

1 个 9: 90% => 36.5 天 的 维修 时 间 / 年 

2 个 9: 99% => 3.65 天 的 维修 时 间 / 年 

3 个 9: 99.9% => 526 分钟 的 维修 时 间 / 年 

4 个 9: 99.99% => 52.6 分 钟 的 维修 时 间 / 年 

5 个 9: 99.999% => 5.26 分钟 的 维修 时 间 / 年 

以 此 类 推 。 

为 了 提高 MTTF， 可 以 提高 器 件 的 质量 ， 也 可 以 设计 能 够 在 器 件 失效 的 情况 下 继续 工作 
的 系统 。 由 于 一 个 器 件 的 失效 可 能 不 会 导致 系统 的 失效 ， 因 此 需要 根据 具体 情况 定义 失效 。 
为 了 明晰 差别 ， 使 用 术语 故障 来 表示 一 个 器 件 的 失效 。 有 如 下 三 种 方式 可 以 提高 系统 
的 MTTF : 

1) 故障 避免 技术 (fault avoidance) : 通过 合理 构建 系统 来 避免 故障 的 出 现 。 

2) 故障 容忍 技术 (fault tolerance) : 采用 宛 余 措施 ， 当 发 生 故 障 时 ， 通 过 元 余 措 施 保证 系 
统 仍然 正常 工作 。 

3) 故障 预报 技术 (fault forecasting) : 对 故障 进行 预测 ， 从 而 允许 在 器 件 失 效 前 进行 替换 。 


5. 5.2 纠正 一 位 错 、 检 测 两 位 错 的 汉 明 编码 ( SEC/DED) 


理 查 德 . 汉 明 (Richard Hamming) 发 明了 一 种 广泛 应 用 于 存储 器 的 宛 余 技术 ， 并 因此 获 
得 1968 年 的 图 灵 奖 。 二 进 制 数 间 的 距离 对 于 理解 元 余 码 很 有 帮助 。 两 个 等 长 二 进 制 数 的 汉 明 
距离 是 两 个 数 对 应 位 置 不 同 的 位 的 数量 。 例 如 ，011011 和 001111 的 距离 为 2。 在 一 种 编码 中 ， 
如 果 码 字 之 间 的 最 小 距离 为 2， 且 其 中 有 1 位 错误 ， 将 会 发 生 什么 ?这 将 会 将 一 个 有 效 的 码 字 
转化 为 无 效 码 字 。 因 此 ， 如 果 能 够 检测 出 一 个 码 字 是 否 有 效 ， 则 可 检测 出 1 位 的 错误 ， 称 为 1 
位 错误 检测 编码 。 
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了 错误 检测 编码 : 这 种 编码 方式 能 够 检测 出 数据 中 有 1 位 错误 ， 但 是 不 能 对 错误 位 置 进行 精 
确定 位 ， 因 此 不 能 纠正 错误 。 


汉 明 使 用 奇偶 校 验 码 进行 错误 检测 。 在 奇偶 校 验 码 中 ， 计 算 码 字 中 1 的 数量 是 奇数 个 还 是 
偶数 个 。 当 一 个 字 写 人 存储 器 时 ， 奇 偶 校 验 位 也 被 写 和 (1 代表 奇数 ,0 代表 偶数 ) 。 这 就 是 
说 ,N+1 位 码 字 中 1 的 个 数 永远 为 偶数 。 因 此 ， 当 读 出 数据 时 ， 校 验 码 也 被 读 出 并 进行 检测 。 
如 果 计 算出 的 校 验 码 与 保存 的 不 符 ， 则 发 生 错 误 。 


国 ! 例题 

计算 十 进 制 数 31 对 应 的 8 位 二 进 制 数 的 奇偶 性 ， 并 写 出 存储 器 中 的 表示 形式 。 假 设 奇偶 
校 验 位 在 最 右边 ， 并 且 假 定 存 储 器 中 最 高 位 发 生 了 翻转 ， 然 后 将 其 读 回 。 请问 能 否 检测 到 错 
误 ? 如 果 最 高 两 位 同时 翻转 呢 ? 
加 答案 

十 进 制 数 31 的 二 进 制 形 式 为 00011111， 有 5 个 1。 为 了 使 编码 后 的 码 字 为 偶 性 ， 需 要 向 校 
验 位 写 人 1， 也 就 是 000111111。 如 果 最 高 位 发 生 翻转 ， 读 回 的 将 是 100111111， 具 有 7 个 1。 
由 于 期 望 码 字 为 偶 性 ,但 是 计算 结果 却 是 奇 性 ， 因 此 报告 出 错 。 如 果 最 高 两 位 同时 发 生 翻转 ， 
则 得 到 110111111, 具有 8 个 1 或 者 说 具有 偶 性 ， 因 此 不 能 报告 出 错 。 口 


如 果 有 两 位 同时 出 错 ， 该 情形 下 码 字 的 奇偶 性 不 变 ， 因 此 一 位 奇偶 校 验 无 法 检测 到 该 错 
误 。( 实 际 上 ， 一 位 奇偶 校 验 可 以 检测 到 任意 奇数 个 错误 ， 但 实际 情况 是 ， 出 现 三 位 错 的 概率 
远 小 于 出 现 两 位 错 的 概率 ， 所 以 一 位 奇偶 校 验 码 主 要 用 于 检测 1 位 出 错 。) 

当然 ， 奇 偶 校 验 码 不 能 纠正 错误 ， 汉 明 想 要 做 到 检 错 的 同时 又 能 纠 错 。 如 果 我 们 采用 最 小 
距离 为 3 的 码 组 ,那么 任意 一 个 发 生 1 位 错 的 码 字 与 其 对 应 的 合法 码 之 间 的 距离 要 小 于 该 非法 
码 与 其 他 合法 码 字 的 距离 。 汉 明 提 出 了 一 种 易于 理解 的 映射 方法 ， 该 方法 将 数据 映射 到 距离 为 
3 的 码 字 ， 为 了 表达 对 他 的 敬意 ， 我 们 称 这 种 编码 方法 为 汉 明 纠 错 码 (Hamming Error Correction 
Code，ECC) 。 我 们 采用 额外 的 校 验 位 确定 单个 错误 的 位 置 。 下 面 是 计算 汉 明 纠 错 码 的 步骤 : 

1) 对 数据 部 分 从 左 到 右 由 1 开始 依次 编号 ， 这 跟 通 常 采用 的 从 最 右边 开始 由 0 开始 编号 
的 做 法 相反 。 

2) 将 所 有 编号 为 2 的 整数 次 客 的 位 标记 为 奇偶 校 验 位 (1,，2，4，8，16，…) 。 

3) 其 他 剩余 位 置 用 作 数 据 位 (位 置 3, 5, 6, 7, 9, 10, 11, 12, 13, 14, 15, …)。 

4) 奇偶 校 验 位 的 位 置 决 定 了 其 对 应 的 数据 位 (图 5-24 用 图 形 的 方式 进行 了 说 明 ) 如 下 


所 示 : 
EN 
a 


奇偶 校 验 








J 








图 5-24 用 于 8 位 数据 的 汉 明 纠 错 码 ， 其 中 奇偶 校 验 位 、 数 据 位 及 覆盖 范围 如 图 所 示 


。 校 验 位 1 (0001,) 检查 第 1，3，5，7，, 9，11，… 位 ， 这 些 数位 编号 的 二 进 制 形式 最 
右边 一 位 均 为 1 (0001, ，0011, ，0101, ，0111, ，1001, ，1011, ，…) 。 


420 


421 


422 
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。 校 验 位 2 (0010,) 检查 第 2, 3, 6, 7，10,，11，14，15，… 位 ,这些 数位 编号 的 二 进 
制 形式 右边 起 第 二 位 均 为 1。 

。 校 验 位 4 (0100,) 检查 第 4~7，12 ~15，20 ~23，… 位 ， 这 些 数 位 编号 的 二 进 制 形式 
右边 起 第 三 位 均 为 1。 

。 校 验 位 8 (1000,) 检查 第 8 -15， 24 ~31，40 ~47，… 人 位， 这些 数 位 编号 的 二 进 制 形 
式 右边 起 第 四 位 均 为 1。 

注意 到 每 个 数据 位 都 被 至 少 两 个 奇偶 校 验 位 覆盖 。 

5) 设置 奇偶 校 验 位 ， 对 各 组 进行 偶 校 验 。 

如 同 变 魔术 一 样 ， 你 可 以 通过 查看 校 验 位 来 确定 数据 位 是 否 出 错 。 采 用 图 5-24 当中 的 12 
位 码 字 ， 如 果 4 个 校 验 位 组 成 的 二 进 制 数 (ps ，ps，P:，Pp ) 是 0000,， 这 说 明 没有 发 生 错 误 。 
但 是 ， 如 果 校 验 位 组 成 的 二 进 制 数 为 1010, ， 也 就 是 十 进 制 数 10 时 ， 汉 明 纠 错 码 告诉 我 们 第 十 
位 (d6) 出 错 了 。 由 于 是 二 进 制 数 ， 所 以 只 需 将 第 十 位 的 数 进行 取 反 ， 就 完成 了 纠 错 。 


臣 | 例题 
假定 存在 某 个 单字 节 数据 10011010,。 首 先 写 出 对 应 的 汉 明 纠 错 码 ， 然 后 把 第 10 位 取 反 ， 
说 明 纠 错 码 如 何 找到 并 纠正 该 错误 。 


印 ] 答案 

将 校 验 位 的 位 置 空 出 来 ，12 位 的 码 字 _ _1 _001 _1010。 

位 置 1 检查 第 1,3, 5, 7,， 9,，11 位 ， 为 使 该 组 为 偶 校 验 ， 我 们 应 当 把 第 1 位 填 0。 

位 置 2 检查 第 2，3，6,，7，10，11 位 ， 为 使 该 组 为 偶 校 验 ， 我 们 在 第 2 位 填 人 1。 

位 置 4 检查 第 4, 5, 6, 7，12 位 ， 所 以 我 们 在 第 4 位 填 人 1。 

位 置 8 检查 第 8，9，10，11，12， 所 以 我 们 在 第 8 位 填 人 0。 

最 终 得 到 的 码 字 为 011100101010。 把 数据 位 第 10 位 取 反 之 后 变 成 011100101110。 

校 验 位 1 为 0 (011100101110 有 4 个 1， 为 偶 性 ， 故 该 组 无 错误 ) 。 

校 验 位 2 为 1 (011100101110 有 5 个 1， 为 奇 性 ， 故 该 组 某 个 位 置 上 有 错误 ) 。 

校 验 位 4 为 1 (011100101110 有 两 个 1， 为 偶 性 ， 故 该 组 无 错误 ) 。 

校 验 位 8 为 1 (011100101110 有 3 个 1， 为 奇 性 ， 故 该 组 某 个 位 置 上 有 错误 ) 。 

校 验 位 2 和 10 不 正确 。 因 为 2+8 =10, 第 10 位 肯定 是 错 的 。 因 此 ， 我 们 将 其 翻转 为 
011100101010， 即 完成 了 纠 错 。 DO 


汉 明 并 没有 止步 于 1 位 纠 错 码 。 通 过 付出 增加 一 位 的 代价 ， 可 以 让 码 组 中 的 最 小 汉 明 距离 变 
到 4。 这 就 意味 着 我 们 可 以 做 到 纠正 1 位 错 并 检测 2 位 错 。 该 方法 增加 了 1 位 奇偶 校 验 码 ， 对 整 
个 字 进 行 计 算 校 验 。 这 里 我 们 以 4 位 的 数据 字 为 例 ， 这 只 需要 7 位 就 能 完成 单位 错 检测 。 计 算出 
汉 明 奇偶 校 验 位 再 〈p, p: p; ) ， 这 里 仍然 采用 偶 校 验 ， 最 后 计算 出 整个 字 的 偶 校 验 位 ps : 

1.23 4 567 8 

Pp: Pp d! ps d, ds ds Pps 

上 述 用 于 纠正 1 位 错 同 时 检测 2 位 错 的 算法 仍 像 之 前 那样 先 计 算出 纠 错 码 组 的 奇偶 性 也， 
最 后 再 计算 一 下 全 组 的 奇偶 校 验 位 ps 就 可 以 了 。 以 下 是 可 能 出 现 的 4 种 情况 : 

1) H 为 偶 并 且 ps 为 偶 ， 这 表示 没有 错误 发 生 。 

2) 互 为 奇 并 且 ps 为 奇 ， 这 表明 出 现 了 一 位 可 纠正 错误 。 ( 当 出 现 一 位 错时 ，p4 应 当 
为 奇 。) 

3) H 为 偶 并 且 ps 为 奇 ， 这 说 明 出 现 的 仅仅 是 p, ， 因 此 将 ps 取 反 即 可 。 

4) HH 为 奇 并 且 ps 为 偶 ， 这 表示 出 现 了 两 位 错 。( 当 出 现 两 位 错时 ，ps 应 当 为 偶 。) 
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纠 1 位 错 检 2 位 错 (SECADED) 的 技术 现在 广泛 应 用 于 服务 器 的 内 存 。 方 便 的 是 ，8 字 节 
的 数据 块 做 SECZDED 时 只 需要 恰好 一 个 字 节 的 额外 开销 。 这 也 是 为 什么 许多 双 列 直 插 式 存储 
模块 宽度 为 72 位 。 


图! 精 解 为 了 计算 出 SEC 需要 的 位 数 ， 假 定 p 表示 校 验 位 的 位 数 ，d 表示 数据 位 的 位 数 ， 则 
整个 码 字 为 p+d 位 。 如 果 采 用 p 个 纠 错位 指示 错误 ( 码 字 长 度 为 p+d 的 情况 下 ) ， 再 加 
上 没有 出 现 错误 的 情况 ， 不 难得 到 下 面 的 不 等 式 : 

2? 三 p+d+1 位 ， 因此 p 宇 lg(p+d+1) 
例如 ， 对 8 位 的 数据 而 言 ，d=8， 并 且 2?>P+8+1， 所 以 P=4。 类 似 的 ， 数 据 长 度 
为 16 位 时 P=5，32 位 时 P=6，64 位 时 p=7， 以 此 类 推 。 

加 精 解 ”在 大 型 系统 中 ， 出 现 多 位 错 的 概率 和 整个 内 存 芯片 出 错 的 概率 变 得 显著 起 来 。 为 解 
决 这 一 问题 ，IBM 引进 了 一 种 叫 作 chipkill 的 技术 ， 之 后 很 多 大 型 系统 都 应 用 了 该 项 技术 
(Intel 称 他 们 所 用 的 为 SDDC)。chipkill 本 质 上 类 似 于 磁 枪 阵列 中 采用 的 RAID 技术 ( 见 
5. 11 节 ) ， 将 数据 和 校 验 码 分 散 开 来 ， 因 此 当 某 一 内 存 芯片 全 部 出 错时 ， 可 以 通过 其 他 内 
存 芯片 中 的 内 容 对 出 错 的 内 容 进行 重建 。 假 定 现 有 一 个 由 10 000 个 处 理 器 构成 的 集群 ， 
其 中 每 个 处 理 器 配备 4GiB 内 存 ，IBM 针对 为 期 三 年 的 运行 时 间 计算 出 了 以 下 不 可 恢复 内 
存 错误 出 现 的 比率 : 

。 仅 采 用 奇偶 校 验 一 一 出 现 大 约 90 000 次 不 可 恢复 (或 者 不 可 检测 ) 错误 ， 换 名 话 
说 ， 每 17 分 钟 就 出 现 一 次 。 

。 仅 采用 SEC/DED 一 一 出 错 大 约 3 500 次 ， 换 名 话说， 每 7.5 小 时 出 现 一 次 不 可 检 
测 或 者 不 可 恢复 的 错误 。 

。 采用 chipkil 一 一 出 错 6 次 ， 换 句 话说， 每 两 个 月 出 现 一 次 不 可 检测 或 不 可 恢复 的 
错误 。 

因此 ， 用 于 数据 仓库 级 别 的 计算 机 需要 采用 chipkill 技术 。 

著 ) 精 解 虽然 存储 器 系统 出 现 1 位 错 或 者 2 位 错 的 情况 比较 典型 ， 但 是 网 络 系统 中 可 能 会 出 现 
突 发 型 错误 。 解 决 该 问题 的 一 个 方法 是 采用 循环 宛 余 校 验 。 对 于 一 个 具有 上 位 的 字 块 来 说 ， 
发 送 端 生成 一 个 nk 位 长 度 的 帧 校 验 序列 。 这 样 最 终 发 送出 的 是 一 个 长 度 为 nn 位 的 序列 ， 
并 且 该 序列 构成 的 数字 可 以 被 某 个 数 整 除 。 接 收 端 用 那个 数 去 除 接收 到 的 帧 。 如 果 余 数 为 0， 
就 认为 没有 发 生 错误 。 如 果 余 数 不 为 0， 接 收 端 将 收 到 的 消息 丢弃 ， 并 通知 发 送 端 重新 发 送 。 
从 第 3 章 你 不 难 猜 到 ， 对 于 某 些 二 进 制 数 ， 可 以 利用 移 位 寄存 器 方便 地 完成 除法 运算 ， 这 使 
得 即便 在 硬件 价格 十 分 昂贵 的 时 代 ，CRC 校 验 码 也 可 以 被 广 为 采 用 。 更 进一步 说 ， 里 德 - 索 
罗 蒙 (Reed-Solomon) 编码 使 用 伽 罗 瓦 (Galois) 域 来 纠正 多 位 传输 错误 ， 数 据 被 看 作 是 多 
项 式 系数 ， 校 验 码 被 看 作 是 多 项 式 的 值 。 里 德 - 索 罗 蒙 计算 复杂 度 远 远 高 于 二 进 制 除法 
运算 ! 





5.6 虚拟 机 


虚拟 机 (Virtual Machine，VM) 最 早出 现 于 20 世纪 60 年 代 中 期 ， 这些 年 来 一 直 是 大 型 机 
中 的 重要 组 成 部 分 。 尽 管 在 20 世纪 80 年 代 和 90 年 代 期 间 ， 它 们 大 多 被 单 用 户 计算 机 领域 所 
忽略 ， 但 是 最 近 才 受到 人 们 的 关注 ， 这 是 因为 

。 在 现代 计算 机 系统 中 ， 隔 离 和 安全 的 重要 性 在 增长 。 

。 标准 操作 系统 在 安全 性 和 可 靠 性 方面 存在 缺陷 。 

。 在 多 个 不 相关 的 用 户 间 共享 一 台 计 算 机 ， 尤 其 是 在 云 计算 中 。 
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。 在 过 去 10 年 里 ,处 理 器 速度 大 幅 增 长 ,使 得 虚拟 机 引起 的 开销 降 至 可 接受 的 范围 内 。 

最 广泛 的 虚拟 机 的 定义 包括 所 有 基本 的 仿真 方法 ， 这些 方法 提供 一 个 标准 的 软件 接口 ， 如 
Java 虚拟 机 。 在 这 一 节 中 ， 我们 对 虚拟 机 感 兴趣 的 地 方 在 于 ， 在 二 进 制 指令 集 系统 结构 (ISA) 
的 层次 上 提供 一 个 完整 的 系统 级 环境 。 尽 管 一 些 虚拟 机 在 本 地 硬件 上 运行 不 同 的 指令 集 系 统 结 
构 ， 但 我 们 假设 它们 都 能 与 硬件 匹配 。 这 样 的 虚拟 机 被 称 为 (操作 ) 系统 虚拟 机 (system vir- 
tual machine) ， 如 IBM VM/370 、VirtualBox 、VMware ESX Server 以 及 Xen。 

系统 虚拟 机 让 用 户 觉得 自己 在 使 用 包括 操作 系统 的 副本 在 内 的 整个 计算 机 。 一 台 运 行 多 个 
虚拟 机 的 计算 机 可 以 支持 多 个 不 同 的 操作 系统 。 在 一 个 传统 的 平台 上 ， 一 个 单独 的 操作 系统 拥 
有 所 有 的 硬件 资源 ， 但 是 通过 使 用 虚拟 机 ， 多 个 操作 系统 共享 硬件 资源 。 

支持 虚拟 机 的 软件 被 称 为 虚拟 机 监视 器 (virtual machine monitor，VMM ) 或 者 管理 程序 
(hypervisor) ; VMM 是 虚拟 机 技术 的 核心 。 底 层 的 硬件 平台 称 为 主机 (host) ， 它 的 资源 被 客户 
端 (guest) 虚拟 机 共享 。VMM 决定 如 何 将 虚拟 资源 映射 到 物理 资源 ， 物理 资源 可 能 是 分 时 共 
享 、 划 分 ， 甚 至 通过 软件 模拟 的 。VMM 比 传 统 的 操作 系统 小 很 多 ; 一 个 VMM 的 隔离 区 可 能 只 
需要 10 000 行 代 码 。 

尽管 我 们 所 感 兴趣 的 是 虚拟 机 可 以 提供 保护 功能 ， 但 是 在 商业 意义 上 ， 虚 拟 机 还 有 其 他 两 
个 优势 

1) 软件 管理 : 虚拟 机 提供 一 个 可 以 运行 完整 软件 堆 的 抽象 ， 甚 至 包含 像 DOS 这 样 的 旧 操 
作 系 统 。 虚 拟 机 典型 的 调度 包括 : 一 些 虚拟 机 运行 旧 的 操作 系统 ， 多 数 虚 拟 机 运行 当前 的 操作 
系统 ， 少 数 虚 拟 机 用 来 测试 下 一 代 操 作 系统 版 本 。 

2) 硬件 管理 : 需要 多 个 服务 器 的 一 个 原因 是 为 了 让 每 个 应 用 程序 运行 在 一 台 单独 的 计 
算 机 上 ， 并 拥有 与 之 兼容 的 操作 系统 ， 这 样 的 分 隔 能 改善 可 靠 性 。 虚 拟 机 允许 这 些 独 立 的 
软件 堆 能 在 共享 硬件 的 同时 独立 运行 ， 因 此 合并 了 服务 器 的 数量 。 男 一 个 例子 是 , 一 些 
VMM 支持 将 正在 运行 的 虚拟 机 移植 到 另 一 台 计算 机 上 ， 这 样 可 以 平衡 负载 或 在 硬件 故障 时 
实施 迁移 。 


图 1 硬件 /软件 接口 亚马逊 Web 服务 (AWS) 在 其 云 计算 平台 中 使 用 虚拟 机 提供 EC2 主要 有 5 个 

原因 : 

1) 在 用 户 共享 同一 个 服务 器 时 ，AWS 允许 可 提供 用 户 间 的 保护 。 

2) 它 简化 了 仓储 式 计算 机 上 软件 的 分 布 。 用 户 只 需要 安装 一 个 虚拟 机 映 象 ， 并 配置 合适 
的 软件 ，AWS 为 用 户 分 配 其 所 需 的 所 有 服务 。 

3) 当 用 户 完成 工作 时 ， 用 户 〔 和 AWS) 可 以 “ 杀 死 ”一 个 VM 来 控制 资源 的 使 用 。 

4) 虚拟 机 隐藏 ?运行 用 户 应 用 软件 的 硬件 特性 ， 这 意味 着 AWS 可 以 在 继续 使 用 老 的 服务 
器 时 引入 新 的 更 有 效 的 服务 器 。 用 户 希望 所 获得 的 机 器 性 能 与 “EC2 计算 单元 ”能 够 匹配 ， 
AWS 将 其 定义 为 : 提供 与 1.0 -1.2 GHz 2007 AMD Opteron 或 2007 Intel Xeon 处 理 器 相等 的 CPU 
能 力 。 依 据 摩尔 定律 ， 很 明显 ， 新 的 服务 器 能 够 提供 更 多 的 EC2 计算 单元 ， 但 是 出 于 经 济 型 的 
考虑 ，AWS 仍然 能 够 出 租 旧 服务 器 。 

5) 虚拟 机 监控 器 可 以 控制 一 个 VM 使 用 处 理 器 、 网 络 和 磁盘 的 比率 ， 这 就 使 得 AWS 可 以 
在 相同 的 底层 硬件 上 提供 许多 价格 不 同 的 节点 类 型 。 例 如 ，2012 年 时 AWS 提供 14 种 不 同类 型 
的 节点 : 从 0. 08 美元 /小 时 的 小 标准 节点 到 3. 10 美元 /小 时 的 高 VO 性 能 节点 。 


通常 来 说 ， 处 理 器 虚拟 化 的 开销 取决 于 工作 量 。 用 户 级 处 理 器 限制 型 程序 没有 虚拟 化 开 
销 ， 这 是 因为 操作 系统 很 少 被 调用 ， 因 此 所 有 的 程序 都 能 以 本 来 速度 运行 。LO 密集 型 负载 通 
常 也 是 操作 系统 密集 型 的 ， 它 们 会 执行 许多 系统 调用 和 特权 指令 ， 从 而 导致 很 高 的 虚拟 化 开 
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销 -。 另 一 方面 ， 如 果 LO 密集 型 负载 同样 也 是 IO 限制 型 的 ， 由 于 在 等 待 LO 时 ， 处 理 器 通常 
处 于 空闲 状态 ， 因 此 处 理 器 的 虚拟 化 开销 就 完全 能 被 掩藏 。 

开销 取决 于 需要 由 VMM 进行 模拟 的 指令 数目 以 及 模拟 速度 的 快慢 。 因 此 ， 假 设 客户 端 虚 
拟 机 和 主机 运行 同样 的 ISA 时 ， 系 统 结构 和 VMM 的 目标 是 尽 可 能 在 本 地 硬件 上 运行 所 有 指令 。 


5. 6.1 虚拟 机 监视 器 的 必 备 条 件 


虚拟 机 监视 器 需要 做 什么 ? 它 给 客户 软件 提供 了 一 个 软件 接口 ， 分 开 每 个 客户 端的 状态 ， 
并 且 需 要 将 自己 从 客户 端 软 件 中 (包括 客户 操作 系统 ) 隔离 。 定 性 的 需求 是 : 
。 除了 性 能 相关 的 行为 或 因 多 虚拟 机 共享 而 造成 的 国定 资源 限制 以 外 ， 客 户 软件 在 虚拟 
机 上 的 运行 应 该 和 它 在 本 地 硬件 上 的 运行 完全 相同 。 
。 客户 软件 不 能 直接 改变 实际 系统 中 的 资源 分 配 。 
为 了 对 处 理 器 进行 “虚拟 化 "，VMM 必须 能 控制 一 切 一 一 访问 特权 状态 、LVO、 异 常 和 中 
断 一 一 尽管 客户 虚拟 机 和 当前 运行 的 操作 系统 临时 使 用 它们 也 不 受 影响 
例如 ， 在 定时 器 中 断 的 情况 下 ，VMM 需要 挂 起 当前 正在 运行 的 客户 虚拟 机 ， 保 存 其 状态 ， 
处 理 中 断 ， 然 后 决定 下 面 该 运行 哪个 客户 虚拟 机 ， 并 读 取 其 状态 。 依 赖 定 时 器 中 断 的 客户 虚拟 
机 会 有 由 YMM 提供 的 一 个 虚拟 定时 器 和 模拟 的 定时 器 中 断 。 
为 了 方便 管理 ，VMM 必须 运行 在 一 个 比 用 户 虚 拟 机 更 高 的 特权 级 别 下 ， 其 中 ， 用 户 虚拟 
机 通常 运行 在 用 户 模式 下 .这 也 确保 了 任何 特权 指令 的 执行 都 需要 由 VMM 来 处 理 。 系 统 级 虚 
拟 机 的 基本 必 备 条 件 如 下 : 
。 至 少 两 个 处 理 器 模式 ， 系 统 级 和 用 户 级 。 
。 特权 级 指令 集合 只 能 在 系统 模式 下 使 用 ， 如 果 在 用 户 模式 下 执行 将 会 产生 trap 中 断 ; 
所 有 系统 资源 只 能 由 这 些 指 令 控制 。 


5. 6.2 ”指令 集 系统 结构 (缺乏 ) 对 虚拟 机 的 支持 


如 果 在 ISA 设计 过 程 中 考虑 到 了 虚拟 机 的 使 用 ， 那 么 由 VMM 执行 的 指令 数目 和 模拟 这 些 
指令 所 花费 的 时 间 会 相对 减少 些 。 允 许 虚拟 机 直接 在 硬件 上 执行 的 系统 结构 被 冠 以 可 虚拟 化 
(virtualizable) 的 名 称 ，IBM 370 就 是 如 此 。 

由 于 虚拟 机 只 是 近期 才 考虑 应 用 于 桌面 系统 和 基于 PC 的 服务 器 ， 所 以 大 部 分 指令 集 在 创 
建 时 都 没有 考虑 虚拟 化 的 思想 。x86 和 大 部 分 RISC 系统 结构 ,包括 ARM v7 和 MIPS 都 是 如 此 。 

VMM 必须 保证 客户 系统 只 能 和 虚拟 资源 交互 ， 因 此 常规 的 客户 操作 系统 在 VMM 的 顶层 运 
行 用 户 模式 程序 。 如 果 客 户 操作 系统 试图 通过 特权 指令 访问 或 者 修改 相关 硬件 资源 的 信息 一 一 
例如 ， 读 / 写 一 个 状态 位 来 启动 中 断 一 一 它 会 向 VMM 发 出 trap 中 断 。VMM 会 进行 适当 的 调整 
来 对 应 实际 资源 。 

因此 ， 如 果 任 何 指令 试图 在 用 户 模式 下 读 / 写 这 样 敏感 的 信息 tap，VMM 将 截获 它 并 且 如 
客户 操作 系统 所 需 的 那样 ， 支 持 敏 感 信息 的 虚拟 版 本 。 

如 果 上 述 条 件 不 具备 ， 那 么 需要 其 他 的 方法 。VMM 必须 使 用 特殊 的 预防 措施 来 定位 所 有 
存在 问题 的 指令 ， 并 且 确 保 它们 能 被 客户 操作 系统 正确 执行 ， 这 就 增加 了 VMM 的 复杂 度 ， 同 
时 也 降低 了 虚拟 机 的 运行 性 能 。 


5. 6. 3 保护 和 指令 集 系统 结构 
保护 需要 同时 依赖 于 体系 结构 和 操作 系统 ， 但 是 随 着 虚拟 存储 器 的 广泛 使 用 ， 体 系 结构 设 
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计 者 需要 对 指令 集体 系 结构 中 一 些 不 方便 使 用 的 细节 进行 修改 。 

例如 ，x86 的 指令 POPF 从 存储 器 堆栈 的 顶部 加 载 标记 寄存 器 。 其 中 有 一 个 标记 是 中 断 使 
能 标记 位 〈 正 ) 。 如 果 在 用 户 模式 下 运行 POPF， 它 只 是 简单 地 改变 除了 下 位 以 外 的 所 有 标记 
位 ， 而 不 是 发 生 trap 中 断 。 如 果 在 系统 模式 下 ， 它 确实 会 改变 正 位 。 但 是 有 一 个 问题 ， 运 行 
在 虚拟 机 用 户 模式 下 的 客户 操作 系统 希望 看 见 正 位 的 改变 。 

在 过 去 ，IBM 的 大 型 机 硬件 和 VMM 采用 以 下 三 个 步骤 来 改善 虚拟 机 的 性 能 : 

1) 降低 处 理 器 虚拟 化 的 开销 。 

2) 降低 由 虚拟 化 引起 的 中 断 开销 。 

3) 中 断 发 生 时 交 给 相应 的 虚拟 机 ， 而 不 用 调用 VMM ， 从 而 降低 中 断 开 销 。 

在 2006 年 ，AMD 和 Intel 提出 新 的 计划 尽力 满足 第 一 个 要 点 ， 即 降低 处 理 器 虚拟 化 的 开销 。 
体系 结构 和 VMM 需要 经 过 多 少 代 的 改进 才能 完全 满足 上 面 三 点 ? 21 世纪 的 虚拟 机 需要 经 过 多 长 
时 间 才 能 像 20 世纪 70 年 代 的 IJBM 大 型 机 和 VMM 一 样 有 效 呢 ? 这 些 都 是 令 人 感 兴趣 的 研究 。 


5.7 虚拟 存储 器 


已 经 设计 出 这 样 的 系统 : 对 程序 员 来 说 ， 复 合 的 存储 结 构 看 起 来 像 单 层 的 存储 
器 ， 所 需 的 数据 传输 也 会 自动 完成 。 
— Kilburn 等 ，《 One- level storage system), 1962 


在 前 面 的 章节 中 ， 我们 知道 了 cache 是 如 何 对 程序 中 最 近 访 问 的 代码 和 数据 提供 快速 访问 
的 。 同 样 ， 主 存 也 可 以 为 通常 由 磁盘 实现 的 辅助 存储 器 充当 “cache”。 这 项 技术 被 称 作 虚 拟 存 
储 器 (virtual memory ) 。 从 历史 观点 来 说 ， 构 造 虚拟 存储 器 有 两 个 主要 动机 : 允许 云 计算 在 多 
个 虚拟 机 之 间 有 效 而 安全 地 共享 存储 器 ; 消除 一 个 小 而 受 限 的 主 存 容 量 对 程序 设计 造成 的 影 
响 。50 年 后 ， 第 一 条 变 成 主要 设计 动机 。 | 


令 ”虚拟 存储 器 : 一 种 将 主 存 用 作 辅 助 存储 器 高 速 缓存 的 技术 。 


当然 ， 为 了 允许 多 个 虚拟 机 共享 同一 个 存储 器 ， 我 们 必须 在 虚拟 机 之 间 进 行 保护 ， 确 保 每 
个 程序 只 能 对 划分 给 它 的 那 部 分 主 存 进 行 读 写 操作 。 主 存 只 需 存放 众多 程序 中 活跃 的 那 部 分 ， 
就 像 cache 中 只 存放 一 个 程序 的 活路 部 分 一 样 。 因 此 ， 局 部 性 原理 也 同样 适用 于 虚拟 存储 器 ， 
虚拟 存储 器 使 得 我 们 能 更 有 效 地 共享 处 理 器 和 主 存 。 

在 编译 的 时 候 ， 我 们 不 知道 哪些 虚拟 机 将 和 其 他 虚拟 机 共享 存储 器 。 事 实 上 ， 当 虚拟 机 在 
执行 的 时 候 ， 虚 拟 机 共享 存储 器 的 情况 是 动态 变化 的 。 由 于 这 种 动态 的 相互 影响 ， 我 们 希望 将 
每 个 程序 都 编译 到 它 自 己 的 地 址 空间 (address space) 一 一 存储 器 中 只 能 有 该 程序 访问 的 独立 
的 一 连 串 地 址 。 虚 拟 存储 器 实现 程序 地 址 空间 到 物理 地 址 (physical address) 的 转换 。 这 种 地 
址 转换 处 理 加 强 了 各 个 程序 地 址 空间 之 间 的 保护 (protection) 。 


了 物理 地 址 : 主 存储 器 的 地 址 。 
信保 护 : 一 组 确保 共享 处 理 器 、 主 存 、L/O 设备 的 多 个 进程 之 间 没 有 故意 地 、 无 意 地 读 写 其 
他 进程 的 数据 机 制 ， 这 些 保护 机 制 可 以 将 操作 系统 和 用 户 的 进程 隔离 开 来 。 


使 用 虚拟 存储 器 的 第 二 个 动机 就 是 允许 单 用 户 程序 使 用 超过 主要 存储 器 的 容量 。 以 前 ， 如 
果 一 个 程序 对 存储 器 来 说 太 大 ， 将 它 变 成 合适 的 大 小 就 是 程序 员 的 责任 。 程 序 员 将 程序 划分 成 
许多 段 ， 并 且 将 这 些 段 标记 成 为 互 扩 的。 这些 程序 段 〈overlay) 在 执行 过 程 中 由 用 户 程序 控制 
装 入 或 换 出 ， 由 程序 员 保 证 程序 不 会 访问 没有 装载 的 程序 段 ， 并 且 装 载 的 程序 段 不 会 超过 存储 
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器 的 总 容量 。 传 统 的 程序 段 被 构造 成 模块 ， 每 一 个 都 包含 了 代码 和 数据 。 不 同 模块 之 间 的 过 程 
调用 将 导致 一 个 模块 覆盖 掉 另 一 个 模块 。 

可 以 想象 ， 这 种 责任 对 程序 员 来 说 是 很 大 的 负担 。 虚 拟 存储 器 的 发 明 就 是 为 了 将 程序 员 从 
这 些 困境 中 解脱 出 来 ， 它 自动 管理 由 主 存 (为 了 区 别 虚 拟 存储 器 ， 有 时 也 称 为 物理 存储 器 ) 
和 辅助 存储 器 组 成 的 两 级 存储 器 层次 结构 。 

尽管 虚拟 存储 器 和 cache 的 工作 原理 是 一 样 的 ， 但 是 不 同 的 历史 根源 决定 它们 要 使 用 不 同 
的 术语 。 虚 拟 存储 器 中 ， 块 被 称 为 页 (page) ,访问 缺失 则 被 称 为 缺 页 (page fault) 。 在 虚拟 存 
储 器 中 ， 处 理 器 产生 一 个 虚拟 地 址 (virtual address ) ， 再 结合 软 硬 件 转换 成 一 个 物理 地 址 
( physical address) ， 然 后 就 可 以 被 用 来 访问 主 在 了 。 图 5-25 显示 了 一 个 分 页 的 虚拟 寻 址 的 存储 
器 被 映射 到 主 存 中 。 这 个 过 程 被 称 作 地 址 映射 或 者 地 址 转换 (address translation) 。 如 今 ， 个 人 
移动 设备 中 由 虚拟 存储 器 控制 的 两 级 存储 器 层次 结构 是 DRAM 和 闪存 ， 而 在 服务 器 中 则 是 
DRAM 和 磁盘 ( 见 5.2 节 )。 如 果 还 拿 图 书馆 作 类 比 ， 我们 可 以 认为 一 本 书 的 书 名 就 是 虚拟 地 
址 ， 物 理 地 址 则 是 这 本 书 在 图 书馆 中 的 位 置 ， 它 可 能 是 图 书馆 的 索 书号 。 


。” 缺 页 ; 访问 的 页 不 在 主 存储 器 中 。 
人 虚拟 地 址 : 虚拟 空间 的 地 址 ， 当 需要 访问 主 存 时 需要 通过 地 址 映射 转换 为 物理 地 址 。 
全“ 地 址 转换 : 也 称 为 地 址 映射 。 在 访问 内 存 时 将 虚拟 地 址 映射 为 物理 地 址 的 过 程 。 


虚拟 地 址 物理 地 址 





> 


图 5-25 在 存储 器 中 ， 主 存 中 的 块 ( 称 为 页 ) 从 一 组 地 址 〈 称 为 虚拟 地 址 ) 映射 到 另 一 组 地 址 ( 称 为 
物理 地 址 ) 。 访问 主 存 使 用 物理 地 址 ， 而 处 理 器 产生 虚拟 地 址 。 虚 拟 存储 器 和 物理 存储 器 都 被 
划分 成 页 ， 因 此 一 个 虚 页 被 映射 到 一 个 物理 页 。 当 然 ， 一 个 虚 页 也 可 能 不 在 主 在 中， 因此 无 法 
映射 到 物理 地 址 ; 在 这 种 情况 下 ， 页 就 被 存在 磁盘 上 。 物 理 页 可 以 被 两 个 指向 相同 物理 地 址 的 
虚拟 地 址 共享 。 这 种 方法 用 来 使 两 个 不 同 的 程序 共享 数据 或 代码 


虚拟 存储 器 还 提供 重 定位 (relocation) 来 简化 执行 时 的 程序 加 载 过 程 。 在 用 地 址 访 存 之 
前 ， 重 定位 将 程序 所 用 的 虚拟 地 址 映射 到 不 同 的 物理 地 址 。 重 定位 的 方法 允许 我 们 将 程序 加 载 
到 主 存 中 的 任何 位 置 。 另 外 ， 现 今 所 有 的 虚拟 存储 器 系统 将 程序 重 定位 成 一 组 固定 大 小 的 块 
(页 ) ， 因 此 减少 了 寻找 主 存 中 连续 的 块 来 放置 程序 的 必要 ; 取而代之 的 是 ， 操 作 系统 只 需要 
在 主 存 中 找到 足够 数量 的 页 。 

在 虚拟 存储 器 中 ， 地 址 被 划分 为 虚 页 号 (virtual page number) 和 页 偏 移 (page offset ) 。 
图 5-26 所 示 是 虚 页 号 到 物理 页 号 (physical page number) 的 转换 。 物 理 页 号 构成 物理 地 址 的 高 
位 部 分 ， 而 页 偏 移 是 不 变 的 ， 构 成 物理 地 址 的 低位 部 分 。 页 偏 移 域 的 位 数 决定 了 页 的 大 小 。 虚 
拟 地 址 可 寻 址 的 页 数 与 物理 地 址 可 寻 址 的 页 数 可 以 不 同 。 拥 有 比 物 理 页 数 多 得 多 的 虚 页 数 是 描 
述 一 个 没有 容量 限制 的 虚拟 存储 器 的 假象 的 基础 。 
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图 5-26 虚拟 地 址 到 物理 地 址 的 映射 。 页 大 小 为 2” =4KiB。 由 于 物理 页 号 有 18 位 ， 存 储 器 中 物理 页 
数 为 2” 。 因 此 ， 最 多 可 以 支持 1GiB 的 主 存 ， 而 虚拟 地 址 空间 为 4CiB 


页 缺失 引发 的 高 代价 是 许多 设计 选择 虚拟 存储 系统 的 原因 ， 缺 失 在 虚拟 存储 器 中 通常 称 为 
缺 页 。 一 次 缺 页 处 理 将 花费 数 百 万 个 时 钟 周期 (5.2 节 的 表 指出 了 主 存储 器 大 概 比 磁盘 快 
100 000 倍 ) 。 这 一 巨大 的 缺失 代价 ， 主 要 由 取得 标准 大 小 的 页 中 第 一 个 字 所 需 的 时 间 来 确定 ， 
因此 在 设计 虚拟 存储 系统 时 需要 考虑 一 些 关 键 性 的 因素 : 

。 为 了 弥补 较 长 的 访问 时 间 ， 页 应 该 足够 大 。 目 前 典型 的 页 大 小 从 4 ~ 16KiB。 能 支持 

32 ~64KiB 页 的 新 型 台式 计算 机 和 服务 器 正 进行 研发 ， 但 是 新 的 嵌入 式 系统 走 的 是 相 
反 的 方向 ， 页 大 小 为 1KiB。 

。 能 降低 缺 页 率 的 组 织 结构 具有 吸引 力 。 这 里 用 到 的 主要 技术 是 允许 存储 器 中 的 页 以 全 
相 联 方式 放置 。 

。 缺 页 可 以 用 软件 处 理 ， 这 是 因为 与 访问 磁盘 的 时 间 相 比 ， 这 样 的 开销 不 算 大 。 此 外 ， 
软件 可 以 使 用 一 些 更 先进 的 算法 来 选择 替换 页 ， 只 要 缺失 率 减 少 很 小 一 部 分 就 足以 弥 
补 算法 的 开销 。 

。 由 于 写 时间 太 长 ， 因 此 在 虚拟 存储 器 中 ， 写 直达 机 制 不 能 很 好 地 管理 写 操作 。 因 此 虚 
拟 存储 系统 中 都 采用 写 回 机 制 。 

下 面 几 节 将 把 这 些 因素 融和 人 虚拟 存储 器 的 设计 中 去 。 


苇 ] 精 解 ”我 们 引入 虚拟 存储 器 是 由 于 许多 虚拟 机 器 共享 存储 器 ， 但是， 虚拟 存储 器 发 明 的 最 
初 原因 是 在 分 时 系统 中 ， 许 多 程序 可 以 共享 一 台 计算 机 。 由 于 当今 的 许多 读者 没有 使 用 分 
时 系统 的 经 验 ， 本 节 使 用 虚拟 机 作为 引入 共享 存储 器 的 动机 。 

邯 ] 精 解 对 人 台式 机 和 服务 器 来 说 ，32 位 地 址 的 处 理 器 已 经 很 有 问题 了 。 通 常 我 们 认为 虚拟 
地 址 要 远大 于 物理 地 址 ， 但 是 如 果 相 对 于 存储 技术 ， 处 理 器 地 址 字 较 小 的 时 候 ， 相 反 的 情 
况 也 会 出 现 。 单 个 程序 或 虚拟 机 不 会 受益 ， 但 是 一 组 程序 或 虚拟 机 同时 执行 就 可 能 因 无 需 
交换 到 主 存 ， 或 者 在 并 行 处 理 器 上 执行 而 受益 。 

号 精 解 本 书 对 虚拟 存储 器 的 讨论 主要 集中 于 使 用 固定 大 小 的 块 的 页 式 虚 拟 存 储 。 还 有 一 种 
可 变 长 度 块 的 机 制 称 为 段 式 管理 (segmentation) 。 在 段 式 存储 中 ， 地 址 由 两 部 分 组 成 : 段 
号 和 段 内 偏 移 。 段 号 被 映射 到 物理 地 址 ， 然 后 与 段 内 偏 移 量 相 加 来 找到 实际 物理 地 址 。 因 
为 段 大 小 是 可 变 的 ， 所 以 还 需要 进行 边界 检查 以 确定 偏 移 量 是 否 在 段 内 。 分 段 最 主要 的 应 
用 就 是 支持 更 多 有 效 的 保护 方法 ， 以 及 共享 地 址 空间 。 与 分 页 相 比 ， 大 多 数 操作 系统 的 孝 
科 书 都 会 更 多 地 讨论 分 段 ， 以 及 如 何 利用 分 段 来 迎 辑 共享 地 址 空间 。 分 段 的 主要 缺点 在 于 
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它 将 地 址 空间 划分 为 许多 逻辑 上 独立 的 块 ， 因 而 这 些 块 就 由 两 部 分 地 址 控制 : 段 号 和 段 内 
篇 移 。 相 反 ， 分 页 使 得 页 号 和 偏 移 量 的 界限 对 于 程序 员 和 编译 器 都 是 不 可 见 的 。 

分 段 也 曾 被 用 作 不 改变 计算 机 字 的 大 小 而 扩展 地 址 空间 的 方法 。 然 而 这 些 尝 试 都 
没有 获得 成 功 ， 这 是 由 于 程序 员 和 编译 器 必须 意识 到 使 用 两 部 分 地 址 本 身 的 不 便 和 性 
能 代价 。 

许多 体系 结构 将 地 址 空间 划分 成 固定 大 小 的 大 块 以 简化 操作 系统 和 用 户 程序 之 间 的 保 
护 ， 同 时 提高 分 页 实现 的 效率 。 尽 管 这 些 划 分 通常 称 为 “ 段 " ， 但 是 这 种 结构 比 块 大 小 可 
变 的 分 段 要 简单 得 多 ， 并 且 对 用 户 程序 不 可 见 。 稍 后 我 们 对 此 进行 详细 讨论 。 


了 段 式 管理 : 一 种 可 变 长 度 的 地 址 映射 策略 ， 其 中 每 个 地 址 由 两 部 分 组 成 : 映射 到 物理 地 址 
的 段 号 和 段 内 偏 移 - 


5.7.1 页 的 存放 和 查找 


由 于 缺 页 的 代价 高 得 惊人 ， 设 计 人 员 通 过 对 页 的 放置 进行 优化 从 而 降低 缺 页 频率 。 如 果 人 允 
许 一 个 虚拟 页 映射 到 任何 一 个 物理 页 ， 那 么 当 缺 页 发 生 时 ， 操 作 系统 可 以 选择 任意 一 个 页 进行 
蔡 换 。 例 如 ， 操 作 系统 可 以 使 用 复杂 的 算法 和 复杂 的 数据 结构 来 跟踪 页 的 使 用 情况 以 选择 在 较 
长 一 段 时 间 内 不 会 被 用 到 的 页 。 使 用 更 先进 更 灵活 的 替换 策略 降低 了 缺 页 率 ， 也 使 全 相 联 方式 
下 页 的 放置 变 得 更 简单 。 

正如 在 5.4 节 中 提 到 的 ， 全 相 联 映射 的 困难 在 于 项 的 定位 ， 这 是 由 于 它 可 能 在 较 高 的 存储 
恬 层 次 中 的 任何 位 置 。 全 部 进行 检索 是 不 切实 际 的 。 在 虚拟 存储 系统 中 ,我 们 使 用 一 个 索引 存 
储 器 的 表 来 定位 页 ; 这 种 结构 称 为 页 表 (page table) ， 它 被 存放 在 存储 器 中 。 页 表 使 用 虚拟 地 
址 中 的 页 号 作 索引 ， 以 找到 相应 的 物理 页 号 。 每 个 程序 都 有 它 自 己 的 页 表 ， 用 来 将 程序 的 虚拟 
地 址 空间 映射 到 主 存 中 。 让 我 们 再 用 图 书馆 进行 类 比 ， 页 表 对 应 于 书 名 和 藏书 位 置 之 间 的 映 
射 。 就 像 卡片 目录 可 能 会 包含 学 校 中 另 一 个 图 书馆 中 书 的 条 目 ， 而 不 仅仅 是 本 地 的 分 馆 ， 我 们 
将 看 见 页 表 也 可 能 含有 不 在 存储 器 中 的 页 的 条 目 。 为 了 指出 页 表 在 存储 器 中 的 位 置 ， 硬 件 包含 
一 个 指向 页 表 首 地 址 的 寄存 器 ; 我 们 称 之 为 页 表 寄 存 器 (page table register) 。 现 在 假定 页 表 存 
在 存储 器 中 一 个 固定 的 连续 区 域内 。 


页 表 : 保存 着 虚拟 地 址 和 物理 地 址 之 间 转 换 关 系 的 表 。 页 表 保 存在 主 存 中 ， 通 常 使 用 庶 页 
号 来 索引 ， 如 果 这 个 虚 页 当前 在 主 存 中 ， 页 表 中 的 对 应 项 将 包含 虚 页 对 应 的 物理 页 号 。 


硬件 /软件 接口 页 表 、 程 序 计 数 器 以 及 寄存 器 ， 确 定 了 一 个 虚拟 机 的 状态 (state)。 如 
果 我 们 想 让 另 一 个 虚拟 机 使 用 处 理 器 ， 我 们 必须 保存 该 状态 。 随 后 ， 在 恢复 了 该 状态 
之 后 ， 虚 拟 机 就 可 以 继续 执行 。 我 们 通常 称 该 状态 为 一 个 进程 (process)。 如 果 一 个 进 
程 占据 了 处 理 器 ， 那 么 这 个 进程 就 是 活路 的 (active)， 否则 就 认为 它 是 非 活路 的 (in- 
active) 。 操 作 系 统 可 以 通过 加 载 进 程 的 状态 令 一 个 进程 活跃 起 来 ， 同 时 激活 程序 计数 
器 ， 进 程 将 会 在 程序 计数 器 中 保存 的 值 处 开始 执行 。 

进程 的 地 址 空间 ， 以 及 它 在 主 存 中 可 以 访问 的 所 有 数据 ， 都 由 驻 在 主 存 中 的 页 表 所 定 
义 。 操 作 系统 只 是 简单 地 加 载 页 表 寄 存 器 用 来 指向 它 想 激活 的 进程 的 页 表 ， 而 不 是 保存 整 
个 页 表 。 由 于 不 同 进程 使 用 相同 的 虚拟 地 址 ， 因 此 每 个 进程 有 各 自 的 页 表 。 操 作 系统 负责 
分 配 物理 主 存 和 更 新 页 表 ， 因 此 不 同 进程 的 虚拟 地 址 空间 不 会 发 生 冲 突 。 我 们 很 快 会 看 
到 ， 使 用 分 离 的 页 表 同 样 能 分 别 保护 进程 。 
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图 5-27 使 用 页 表 寄 存 器 、 虚 拟 地 址 以 及 被 指向 的 页 表 来 说 明 硬 件 是 如 何 形 成 物理 地 址 的 。 
每 个 页 表 项 使 用 1 位 有 效 位 ， 就 像 在 cache 中 设计 的 一 样 。 如 果 该 位 为 无 效 ， 该 页 就 不 在 主 存 
中 ， 就 发 生 一 次 缺 页 。 如 果 该 位 为 有 效 ， 表 明 该 页 在 主 存 中 ， 并 且 该 项 包含 有 物理 页 号 。 

页 表 寄存 器 


虚拟 地 址 
31 30 29 28 27 ee 15 14 13 12 11 10 9 8 3210 
























































如 果 为 0， 则 页 面 
不 在 存储 器 中 
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物理 页 号 





me 3 9 0 








物理 地 址 
图 5-27 用 虚 页 号 来 索引 页 表 以 获得 对 应 的 物理 地 址 部 分 。 假 定 地 址 为 32 位 。 页 表 的 首 地 址 由 页 表 指 
针 给 出 。 在 本 图 中 ， 页 大 小 为 2” 字 节 ， 即 4KiB， 虚 拟 地 址 空间 为 2” 字 节 ， 即 4GiB， 物 理 地 址 
空间 为 2” 字 节 ， 可 以 支持 高 达 1GiB 的 主 存 。 页 表 项 数 为 2”， 即 100 万 项 。 每 一 项 的 有 效 位 指 
出 了 映射 是 否 合法 。 如 果 该 位 为 0， 那 么 该 页 就 不 在 主 存 中 。 尽 管 图 中 所 示 的 页 表 项 宽度 只 需 
19 位 , 但 为 了 寻 址 方便 ,通常 让 它 有 32 位 。 其 他 位 则 用 来 存放 每 页 都 要 保留 的 基本 的 附加 信 
息 ， 如 保护 信息 
由 于 页 表 包 含 了 每 个 可 能 的 虚拟 页 的 映射 ， 因此 不 需要 标记 位 。 在 cache 术语 中 ， 索 引 是 
用 来 访问 页 表 的 ， 由 整个 块 地 址 即 虚 页 号 组 成 。 


5.7.2 缺 页 故障 


如 果 虚 拟 页 的 有 效 位 关闭 ， 就 会 发 生 缺 页 故障 。 操 作 系 统 获得 控制 权 。 控 制 的 转移 由 异常 
机 制 完 成 ， 这 点 在 第 4 章 已 经 看 到 并 在 本 节 稍 后 进行 讨论 。 一 旦 操作 系统 获得 控制 权 ， 它 必须 
在 下 一 级 存储 器 层次 (通常 是 闪存 或 磁盘 ) 中 找到 该 页 ， 然 后 决定 将 其 放 到 主 存 中 。 

虚拟 地 址 本 身 并 不 会 马上 告诉 我 们 页 在 磁盘 中 的 位 置 。 还 拿 图 书馆 作 类 比 ， 我 们 不 能 仅仅 
依靠 书 名 就 找到 图 书 的 具体 位 置 。 而 是 按 目 录 查 找 ， 获 得 书 在 书架 上 的 位 置信 息 ， 比 如 说 图 书 
馆 的 索引 书号 。 同 样 ， 在 虚拟 存储 系统 中 ， 我 们 必须 保持 跟踪 记录 虚拟 地 址 空间 的 每 一 页 在 磁 
盘 上 的 位 置 。 

由 于 我 们 无 法 提前 获知 存储 器 中 的 某 一 页 什么 时 候 将 被 蔡 换 出 去 ， 因 此 操作 系统 在 创建 进 
程 的 时 候 通常 会 在 闪存 或 磁盘 上 为 进程 中 所 有 的 页 创建 空间 。 这 一 磁盘 空间 称 为 交换 区 ( swap 
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space) 。 同 时 ， 它 也 会 创建 一 个 数据 结构 来 记录 每 个 虚拟 页 在 磁盘 上 的 存放 位 置 。 这 个 数据 结 
构 可 能 是 页 表 中 的 一 部 分 ， 也 可 能 是 辅助 数据 结构 ， 寻 址 方式 和 页 表 一 样 。 图 5-28 是 一 个 包 
含 物理 页 号 或 磁盘 地 址 的 单个 表 的 结构 。 


令 ”交换 区 : 为 进程 的 全 部 虚拟 地 址 空间 所 预 留 的 磁盘 空间 。 
虚 页 号 










2 








图 5-28 页 表 将 虚拟 存储 器 中 的 每 一 页 映射 到 主 存 中 的 一 页 或 者 存储 结构 的 下 一 层 (磁盘 上 的 一 
页 ) 。 虚 页 号 用 来 检索 页 表 。 如 果 有 效 位 开启 ， 页 表 提 供 虚 页 对 应 的 物理 页 号 〈 如 存储 器 
中 该 页 的 首 地 址 )。 如 果 有 效 位 关闭 ， 那 么 该 页 就 只 存在 磁盘 上 的 某 个 指定 的 磁盘 地 址 。 在 
许多 系统 中 ， 物 理 页 地 址 和 磁盘 页 地 址 的 表 在 逻辑 上 是 一 个 表 , 但 是 保存 在 两 个 独立 的 数据 
结构 中 。 因 为 即使 有 些 页 当前 不 在 主 存 中 ， 我 们 也 必须 保存 所 有 页 的 磁盘 地 址 ， 所 以 使 用 双 
表 在 某 种 程度 上 是 合理 的 。 请 记 住 主 存 中 的 页 和 磁盘 上 的 页 大 小 相等 


操作 系统 同样 会 创建 一 个 数据 结构 来 跟踪 记录 使 用 每 个 物理 页 的 是 哪些 进程 和 哪些 虚拟 地 
址 。 当 一 次 缺 页 发 生 时 ， 如 果 主 存 中 所 有 的 页 都 在 使 用 ， 操 作 系统 仍 必须 选择 一 页 进行 替换 。 
我 们 希望 最 小 化 缺 页 的 次 数 ， 因 而 大 多 数 操作 系统 都 会 选择 它们 认为 近期 内 不 会 被 使 用 的 页 进 
行 蔡 换 。 使 用 过 去 的 信息 来 预测 未 来 的 使 用 情况 ， 操 作 系统 遵循 我 们 在 5. 4 节 中 提 到 的 最 近 最 
少 使 用 (LRU) 替换 策略 。 操 作 系统 查找 最 近 最 少 使 用 的 页 ， 假 定 某 一 页 在 很 长 一 段 时间 都 没 
有 被 访问 ， 那 么 该 页 再 被 访问 的 可 能 性 比 最 近 经 常 访问 的 页 的 可 能 性 要 小 。 被 蔡 换 的 页 写 人 磁 
盘 的 交换 区 。 如 果 还 不 是 很 明白 ， 可 以 把 操作 系统 看 成 是 另 一 个 进程 ， 而 那些 控制 主 存 的 表 也 
在 主 存 中 ; 这 看 起 来 似乎 有 些 矛 盾 ， 稍 后 将 具体 解释 。 


著 硬件 /软件 接口 ”要 完全 准确 地 执行 LRU 算法 的 代价 太 高 了 ， 因 为 每 次 存储 器 访问 时 都 需 
要 更 新 数据 结构 。 作 为 替代 ， 大 多 数 操作 系统 通过 跟踪 哪些 页 最 近 被 使 用 ， 哪 些 页 最 近 没 
有 用 到 来 近似 地 实现 LRU 算法 。 为 了 帮助 操作 系统 估算 最 近 最 少 使 用 的 页 ， 一 些 计算 机 
提供 了 一 个 引用 位 (reference bit) 或 者 称 为 使 用 位 (use bit) ， 当 一 页 被 访问 时 该 位 被 置 
位 。 操 作 系 统 定期 将 引用 位 清 零 ， 然 后 再 重新 记录 ， 这 样 就 可 以 判定 在 这 段 特定 时 间 内 哪 
些 页 被 访问 过 。 有 了 这 些 使 用 信息 ， 操 作 系统 就 可 以 从 那些 最 近 最 少 访问 的 页 中 选择 一 页 
(通过 检查 其 引用 位 是 否 关闭 ) 。 如 果 硬件 没有 提供 这 一 位 ， 操 作 系 统 就 要 通过 其 他 的 方 
法 来 估计 哪些 页 被 访问 过 。 


434 


435 
1 


296 第 5 章 





引用 位 : 也 称 为 使 用 位 。 每 当 访问 一 个 页 面 时 该 位 被 置 位 ， 通 常用 来 实现 LRU 或 其 他 替 
换 策略 。 


号 ] 精 解 ”虚拟 地 址 为 32 位 ， 页 大 小 为 4KiB， 页 表 每 一 项 为 4 字 节 ， 我们 可 以 计算 总 的 页 表 


容量 为 : 

页 表 项 数 = 2227]21 = it 

页 表 容量 = 2” 个 页 表 项 x 2* 字 节 /页 表 项 = 4MiB 
也 就 是 说 ， 每 个 程序 在 执行 的 任何 时 候 都 需要 4MiB 的 存储 器 空间 。 对 单个 进程 来 说 ， 这 
个 大 小 并 不 差 。 但 是 如 果 计 算 机 中 同时 有 成 百 上 千 的 进程 同时 运行 上 时， 每 一 个 程序 有 各 自 
的 页 表 ， 这 将 会 怎样 ? 我 们 又 如 何 处 理 64 位 地 址 ， 通 过 这 个 计算 需要 2” 个 字 ? 

一 系列 的 技术 已 经 被 用 于 减少 页 表 所 需 的 存储 量 。 下 面 5 种 技术 都 是 针对 减少 所 需 的 
最 大 存储 量 以 及 减少 用 于 页 表 的 主 存 : 

1) 最 简单 的 技术 是 使 用 一 个 界限 寄存 器 ， 对 给 定 的 进程 限制 其 页 表 的 大 小 。 如 果 虚 
拟 页 号 大 于 界限 寄存 器 中 的 值 ， 就 必须 在 页 表 中 加 入 该 项 。 这 种 技术 允许 页 表 随 着 进程 消 
耗 空间 的 增多 而 增长 。 因 此 ， 只 有 当 进 程 使 用 了 虚拟 地 址 空间 的 许多 页 时 ， 页 表 才 会 变 得 
很 大 。 这 种 技术 要 求 地 址 空间 只 朝 一 个 方向 扩展 。 

2) 允许 地 址 空间 只 朝 一 个 方向 增长 并 不 够 ， 因 为 多 数 语言 需要 两 种 大 小 可 扩展 的 区 
域 : 一 个 用 来 保留 栈 ， 一 个 用 来 保留 扒 。 由 于 这 种 二 元 性 ， 如 果 将 页 表 划 分 ， 使 其 既 能 从 
最 高 地 址 向 下 扩展 ， 也 能 从 最 低地 址 向 上 扩展 ， 就 方便 多 了 。 这 也 就 意味 着 有 两 个 独立 的 
页 表 和 两 个 独立 的 界限 。 两 个 页 表 的 使 用 将 地 址 空间 分 成 两 段 。 地 址 的 高 位 用 来 判断 该 地 
址 使 用 了 哪个 段 和 哪个 页 表 。 由 于 段 由 地 址 的 高 位 部 分 决定 ， 每 一 段 可 以 有 地 址 空间 的 一 
半 大 。 每 段 的 界限 寄存 器 指定 了 当前 段 的 大 小 ， 该 大 小 以 页 为 单位 增长 。 这 种 类 型 的 段 被 
应 用 于 很 多 体系 结构 ， 包 括 MIPS 结构 。 不 同 于 5.7 节 的 第 三 个 精 解 中 讨论 的 段 ， 这 种 形 
式 的 段 对 应 用 程序 是 不 可 见 的 ， 尽 管 它 对 操作 系统 可 见 。 这 种 机 制 主要 的 缺陷 在 于 当 以 一 
种 稀疏 方式 使 用 地 址 空间 而 不 是 一 组 连续 的 虚拟 地 址 时 ， 它 的 执行 效果 就 不 太 好 。 

3) 另外 一 种 减 小 页 表 容 量 的 方法 是 对 虚拟 地 址 使 用 哈 希 函数 ， 这 样 ， 页 表 需 要 的 容 
量 仅仅 是 主 存 中 的 物理 页 数 。 这 种 结构 称 为 反 置 页 表 (inverted page table) 。 当 然 ， 反 置 
页 表 的 查找 过 程 略微 有 些 复杂 ， 因 为 我 们 不 能 仅仅 依靠 索引 来 访问 页 表 。 

4) 多 级 页 表 同 样 可 以 用 来 减少 页 表 存 储量 。 第 一 级 映射 到 虚拟 地 址 空间 中 较 大 的 固 
定 大 小 的 块 ， 一 共有 64 ~256 页 。 这 些 大 的 块 有 时 候 称 为 段 ， 而 第 一 级 的 映射 表 有 时 称 为 
段 表 ， 对 用 户 来 说 段 表 是 不 可 见 的 。 段 表 中 的 每 一 项 指出 了 该 段 中 是 否 有 页 被 分 配 ， 如 果 
有 ， 就 指向 该 段 的 页 表 。 地 址 转换 发 生 在 第 一 次 段 表 查 找 时 ， 使 用 地 址 的 高 位 部 分 。 如 果 
段 地 址 有 效 ， 下 一 组 高 位 地 址 则 用 来 索引 由 段 表 项 指向 的 页 表 。 这 种 机 制 允 许 以 一 种 稀 玻 
的 方式 〈 多 个 不 相连 的 段 同时 处 于 活跃 状态 ) 来 使 用 地 址 空间 而 不 用 分 配 整个 页 表 。 对 
很 大 的 地 址 空间 和 在 需要 非 连续 地 址 分 配 的 软件 系统 中 ， 这 种 机 制 尤为 有 效 。 但 是 这 种 两 
级 映射 方式 的 主要 缺陷 在 于 地 址 转换 过 程 更 为 复杂 。 

5) 为 了 减少 页 表 占 用 的 实际 主 存 空 间 ， 现在， 多 数 系 统 也 允许 将 页 表 再 分 页 。 尽 管 
听 起 来 这 很 复杂 ， 但 是 它 的 工作 原理 和 虚拟 存储 器 一 样 ， 并 且 人 允许 页 表 驻 留 在 虚拟 地 址 空 
间 中 。 另 外 ， 还 有 一 些 很 小 却 很 关键 的 问题 ， 例 如 ， 要 避免 不 断 出 现 的 缺 页 。 如 何 克 服 这 
些 问 题 需 要 描述 地 很 细节 ， 并 且 一 般 对 机 器 的 依赖 性 很 高 。 简 而 言 之 ， 要 避免 这 些 问 题 ， 
可 以 将 全 部 页 表 置 于 操作 系统 地 址 空间 中 ， 并 且 至 少 要 把 操作 系统 中 一 部 分 页 表 放 在 主 存 
中 的 可 物理 寻 址 的 一 块 区 域 中 ， 这 部 分 页 表 总 是 存在 于 主 存 而 非 磁盘 中 。 
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5.7.3 关于 写 


访问 cache 和 主 存 的 时 间 相 差 上 百 个 时 钟 周期 ， 写 直达 机 制 也 可 以 使 用 ， 但 是 我 们 需要 一 
个 写 缓冲 区 来 隐藏 写 延迟 。 在 虚拟 存储 器 系统 中 ， 对 存储 器 层次 结构 中 下 一 层 (磁盘 ) 的 写 
操作 需要 数 百 万 个 处 理 器 时 钟 周期 ; 因此 ， 创 建 一 个 缓冲 区 用 来 允许 系统 用 写 直达 的 方式 对 磁 
盘 进 行 写 的 方法 是 完全 不 可 行 的 。 相 反 ， 虚 拟 存储 器 系统 必须 使 用 写 回 机 制 ， 对 存储 器 中 的 页 
进行 单独 的 写 操作 ， 并 且 在 该 页 被 奉 换 出 存储 器 时 再 被 复制 到 磁盘 中 去 。 


俩 硬件 /软件 接口 ”在 虚拟 存储 系统 中 ， 写 回 机 制 有 另 一 个 主要 的 优点 。 因 为 相对 于 磁盘 访问 时 
闻 ， 其 传输 时 间 要 少 得 多 ， 因 此 ， 把 整 页 复制 回 磁盘 比 把 单个 字 写 回 要 高 效 得 多 。 尽 管 写 回 操 
作 比 传输 单个 字 更 高 效 ， 但 是 开销 却 很 大 。 因 此 ， 当 某 一 页 被 替换 时 ， 我 们 希望 知道 该 页 是 否 
需要 被 复制 写 回 。 为 了 追踪 读 入 主 存 中 的 页 是 否 被 写 过 ， 可 以 在 页 表 中 增加 一 个 脏 位 〈dirty 
bit) 。 当 页 中 任何 字 被 写 时 就 将 这 一 位 置 位 。 如 果 操作 系统 选择 替换 某 一 页 ， 脏 位 指明 了 在 把 
该 页 所 占用 的 主 存 让 给 另 一 页 之 前 ， 是 否 需要 将 该 页 写 回 磁盘 。 因 此 ， 一 个 修改 过 的 页 也 通常 
被 称 为 脏 页 (dirty page) 。 


5.7.4 加快 地 址 转换 : TLB 


由 于 页 表 存 放 在 主 存 中 ， 因 此 程序 每 次 访 存 至 少 需 要 两 次 : 第 一 次 访 存 先 获得 物理 地 址 ， 
第 二 次 访 存 才 获得 数据 。 提 高 访问 性 能 的 关键 在 于 依靠 页 表 的 访问 局 部 性 。 当 一 个 转换 的 虚 页 
号 被 使 用 时 ， 它 可 能 在 不 久 的 将 来 再 次 被 用 到 ， 因 为 对 该 页 中 字 的 引用 同时 具有 时 间 局 部 性 和 
空间 局 部 性 。 

因此 ， 现 代 处 理 器 都 包含 一 个 特殊 的 cache 以 跟踪 最 近 使 用 过 的 地 址 变换 。 这 个 特殊 的 地 
址 转换 cache 通常 称 为 快 表 (Translation-Lookaside Buffer，TLB) (将 其 称 为 地 址 变换 高 速 缓存 
更 精确 ) 。TLB 就 相当 于 记录 目录 中 的 一 些 书 的 位 置 的 小 纸 片 ; 我 们 在 纸 片 上 记录 一 些 书 的 位 
置 ， 并 且 将 小 纸 片 当成 图 书馆 索 书 号 的 cache， 这 样 就 不 用 一 直 在 整个 目录 中 搜索 了 。 


2 快 表 : 用 于 记录 最 近 使 用 地 址 的 映射 信息 的 高 速 缓存 ， 从 而 可 以 避免 每 次 都 要 访问 页 表 。 


如 图 5-29 所 示 ，TLB 的 每 个 标记 项 存放 虚 页 号 的 一 部 分 ， 每 个 数据 项 中 存放 了 物理 页 号 。 
由 于 我 们 每 次 访问 的 是 TLB 而 不 是 页 表 ，TLB 需要 包括 其 他 状态 位 ， 如 脏 位 和 引用 位 。 

每 次 访问 ， 我 们 都 要 在 TLB 中 查找 虚 页 号 。 如 果 命中 ， 物 理 页 号 就 用 来 形成 地 址 ， 相 应 的 
引用 位 被 置 位 。 如 果 处 理 器 执行 的 是 写 操作 ， 脏 位 同样 要 被 置 位 。 如 果 TLB 发 生 缺 失 ， 我 们 必 
须 判 断 是 发 生 缺 页 还 是 仅仅 是 一 次 TLB 缺失 。 如 果 该 页 在 主 存 中 ， 那 么 TLB 缺失 只 是 一 次 转 
换 缺失 。 在 这 种 情况 下 ， 处 理 器 可 以 通过 将 页 表 中 的 变换 装载 到 TLB 中 并 且 重 新 访问 来 进行 缺 
失 处 理 。 如 果 该 页 不 在 主 存 中 ，TLB 缺失 就 是 一 次 真 的 缺 页 。 在 这 种 情况 下 ， 处 理 器 调用 操作 
系统 的 异常 处 理 。 由 于 TLB 中 的 项 比 主 存 中 的 页 数 少 得 多 ， 发 生 TLB 缺失 会 比 缺 页 频繁 得 多 。 

TLB 缺失 既 可 以 通过 硬件 处 理 ， 也 可 以 通过 软件 处 理 。 实 际 上 ， 两 种 方法 的 性 能 差别 很 
小 ， 这 是 因为 无 论 哪 种 方法 ， 需 要 执行 的 基本 操作 都 是 一 样 的 。 

在 发 生 了 TLB 缺失 ， 并 且 已 经 在 页 表 中 找到 了 缺失 的 变化 时 ， 我 们 就 需要 从 TLB 中 选 
择 一 项 进行 替换 。 由 于 TLB 表 项 中 包含 了 引用 位 和 脏 位 ， 当 替换 某 一 项 时 ， 需 要 把 这 些 位 
复制 回 页 表 项 中 。 这 些 位 是 TLB 表 项 中 唯一 可 以 修改 的 部 分 。 利 用 写 回 策 略 一 一 只 是 在 缺 
失 的 时 候 将 这 些 表 项 写 回 而 不 是 任何 写 操作 都 写 回 一 一 是 非常 有 效 的 ， 因 为 我 们 期 望 TLB 
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缺失 率 更 低 。 一些 系统 使 用 其 他 技术 来 近似 引用 位 和 脏 位 ， 以 消除 除了 缺失 后 装 入 新 表 项 
之 外 写 TLB 的 必要 。 


TLB 
虚 页 号 有 效 位 脏 位 引用 位 。 标记 物理 页 面 地 址 















































图 5-29 TLB 作为 页 表 的 cache， 用 于 存放 映射 到 物理 页 中 的 那些 项 。TLB 包含 了 页 表 中 虚 页 到 物理 页 映 
射 的 一 个 子 集 。TLB 映射 以 灰 线 显示 。 因 为 TLB 是 一 个 cache， 它 必须 有 标记 域 。 如 果 一 个 页 在 
TLB 中 没有 匹配 的 项 ， 就 必须 检查 页 表 。 页 表 或 者 提供 该 页 的 物理 页 号 (可 用 来 创建 一 个 TLB 
项 ) ， 或 者 指出 该 页 在 磁盘 上 ， 这 时 就 会 发 生 缺 页 。 由 于 页 表 对 于 每 个 虚 页 都 有 一 个 相应 的 项 ， 
438 并 不 需要 标记 ; 换 名 话说， 不 同 于 TLB， 页 表 并 不 是 cache 
TLB 的 一 些 典型 的 值 为 : 
e TLB 大 小 : 16 ~512 个 项 。 
。 块 大 小 : 1 ~2 个 页 表 项 (通常 每 个 为 4~8 字 节 ) 。 
。 命中 时 间 : 0.5 ~1 个 时 钟 周期 。 
。 缺失 代价 : 10 ~ 100 个 时 钟 周期 。 
e 缺失 率 : 0.01% ~1% 。 
设计 者 在 TLB 设计 中 相 联 度 的 设置 非常 多 样 化 。 有 些 系统 使 用 小 的 全 相 联 的 TLB ， 这 
是 由 于 全 相 联 有 较 低 的 缺失 率 ; 此 外 ， 由 于 TLB 很 小 ， 全 相 联 映射 的 成 本 也 不 会 太 高 。 
其 他 一 些 系统 通常 使 用 相 联 度 低 且 容量 大 的 TLB。 在 全 相 联 映射 的 方式 下 ， 由 于 用 硬件 实 
现 LRU 策略 的 代价 很 大 ， 因 此 替换 项 的 选择 就 很 复杂 。 男 外 ， 由 于 TLB 的 缺失 比 缺 页 要 
频繁 得 多 ， 因 此 需要 用 较 低 的 代价 来 处 理 缺 失 ， 而 不 能 像 缺 页 处 理 那样 选择 一 个 开销 大 
[439] 的 软件 算法 。 所 以 很 多 系统 都 支持 随机 地 选择 替换 表 项 的 方法 。 在 5.8 节 中 我 们 将 会 详 
细 讨 论 蔡 换 策 略 。 
内 置 FastMATH TLB 


为 了 弄 清 楚 这些 想 法 是 如 何 实际 应 用 到 处 理 器 中 的 ,我们 来 进一步 研究 内 置 FastMATH 的 
TLB。 存 储 系统 页 大 小 为 4KiB ， 地 址 空间 为 32 位 ， 因 此 ， 虚 页 号 长 为 20 位 ， 如 图 5-30 顶部 所 
示 。 物 理 地 址 和 虚拟 地 址 长 度 相等 。TLB 包含 了 16 个 项 ， 采 用 全 相 联 映射 ， 由 指令 和 数据 访 
问 共 享 。 每 个 表 项 宽 为 64 位 ,包含 了 20 位 的 标记 位 (作为 该 TLB 表 项 的 虚 页 号 ) 、 相 应 的 物 
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理 页 号 (也 是 20 位 ) 、 一 个 有 效 位 、 一 个 脏 位 以 及 一 些 其 他 管理 操作 位 。 与 大 多 数 MIPS 系统 
类 似 ， 它 采用 软件 来 处 理 TLB 缺失 。 


虚拟 地 址 
1 ‘3029 His 14. .13 12 11 10 9 soaris 321 0 
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5-30 内置 FastMATH 中 TLB 和 cache 实现 了 从 虚拟 地 址 到 数据 项 的 转换 过 程 。 本 图 描述 了 TLB 和 数 
据 cache 的 结构 ， 这 里 假设 页 大 小 是 4KiB。 本 图 主要 研究 读 操作 ,图 5-31 则 描述 了 如 何 处 理 
写 操 作 。 注 意 到 不 同 于 图 5-12， 标 记 和 数据 RAM 是 分 开 的 。 用 cache 索引 和 块 偏 移 来 寻 址 长 
而 窄 的 数据 RAM ， 无 需 使 用 16: 1 的 多 路 选择 器 我 们 也 能 选 出 块 中 所 需 的 字 。 当 cache 采用 直 
接 映 射 方式 时 ，TLB 是 全 相 联 的 。 由 于 需要 的 项 可 能 在 TLB 中 的 任何 位 置 ， 因 此 要 实现 全 相 
联 TLB 需要 将 每 个 TLB 标记 都 与 虚 页 号 进行 比较 (参考 5. 4. 2 节 精 解 的 内 容 ) 。 如 果 匹 配 表 项 
的 有 效 位 有 效 ， 那么 TLB 访问 命中 ， 物 理 页 号 与 页 偏 移 中 的 位 共同 形成 访问 cache 的 索引 


图 5-30 是 TLB 和 一 个 cache， 图 5-31 则 说 明了 处 理 一 次 读 或 写 请 求 的 步骤 。 当 一 次 TLB 


缺失 发 生 时 ，MIPS 硬件 把 被 访问 的 页 号 保存 在 一 个 特殊 寄存 器 中 ， 并 产生 一 次 异常 。 异 常 请 
求 操作 系统 通过 软件 处 理 缺失 。 为 了 找到 缺失 的 页 的 物理 地 址 ，TLB 缺失 程序 用 虚拟 地 址 的 页 
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号 ， 以 及 能 指出 活 牙 进程 页 表 起 始 地址 的 页 表 寄 存 器 来 检索 页 表 。 通 过 使 用 一 系列 更 新 TLB 的 
特殊 指令 ， 操 作 系统 将 页 表 中 的 物理 地 址 放 和 人 TLB 中 。 假 设 代码 和 页 表 项 都 在 指令 cache 和 数 
据 cache 中 ， 那 么 一 次 TLB 缺失 大 概 需要 花费 13 个 时 钟 周 期 〈 在 5.7.7 节 ， 我 们 将 讨论 MIPS 
TLB 代码 ) 。 如 果 页 表 项 中 没有 有 效 的 物理 地 址 ， 就 会 发 生 一 次 真 的 缺 页 。 硬 件 保 存 着 被 建议 
替换 项 的 索引 ， 而 这 一 项 则 是 随机 选取 的 。 

虚拟 地 址 


TLB 访 问 






试图 从 cache 
读数 据 









读 入 cache 块 时 
cache 缺 失 阻 塞 





数据 写 入 cache， 更 新 
写 入 位 ,将 数据 和 地 址 
送 入 写 缓冲 器 


图 5-31 在 内 置 FastMATH 的 TLB 和 cache 中 处 理 读 或 者 写 直 达 操 作 。 如 果 TLB 命中 ， 最 终 的 物理 地 址 
就 可 以 用 来 访问 cache。 对 于 读 操 作 ， 当 从 存储 器 中 取 数 据 时 ，cache 产生 命中 或 缺失 ， 提 供 数 
据 或 者 引起 阻塞 。 对 于 写 操作 ， 若 命中 ，cache 某 数据 项 中 的 一 部 分 内 容 将 被 重 写 ， 如 果 采 用 
写 直达 策略 还 要 将 数据 送 到 写 缓冲 区 中 。 写 缺失 和 读 缺 失 相 同 ， 只 是 在 数据 块 从 存储 器 中 读 出 
后 会 被 修改 。 写 回 策略 需要 将 cache 的 写 人 位 置 位 ， 并 且 只 有 当 读 或 写 缺 失 时 ， 如 果 被 替换 的 
块 处 于 修改 状态 ， 才 将 整 块 写 人 写 缓冲 。 注 意 ，TLB 命中 和 cache 命中 是 相互 独立 的 事件 ， 但 
是 cache 命中 只 可 能 发 生 在 TLB 命中 之 后 ， 这 就 意味 着 数据 必须 在 主 存 中 。TLB 缺失 和 cache 
缺失 之 间 的 联系 将 在 接 下 来 的 例子 和 本 章 最 后 的 习题 中 进一步 研究 


对 于 写 请 求 来 说 ， 有 一 个 额外 的 复杂 情况 : 必须 检查 TLB 中 的 写 访问 位 。 该 位 可 以 阻止 程 
序 向 它 仅 具有 读 权限 的 页 中 进行 写 操作 。 如 果 程 序 试 图 写 ， 且 写 访 问 位 是 关闭 的 ， 则 会 产生 异 
常 。 写 访问 位 构成 了 保护 机 制 的 一 部 分 ,我们 将 在 稍 后 讨论 。 


5.7.5 集成 虚拟 存储 器 、TLB 和 cache 
虚拟 存储 器 和 cache 系统 就 像 一 个 层次 结构 一 样 共同 工作 ， 因 此 除非 数据 在 主 存 中 ， 否 则 
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它 不 可 能 在 cache 中 出 现 。 操 作 系 统 帮 助 管理 该 层次 结构 ， 当 它 决 定 将 某 一 页 移 到 磁盘 上 去 
时 ， 就 在 cache 中 将 该 页 中 的 内 容 刷 新 。 同 时 ， 操 作 系 统 修改 页 表 和 TLB， 而 后 尝试 访问 该 页 
上 的 数据 都 将 发 生 缺 页 。 

在 最 好 的 情况 下 ， 虚 拟 地 址 由 TLB 进行 转换 ， 然 后 被 送 到 cache， 找 到 相应 的 数据 ， 取 回 
并 送 入 处 理 器 。 在 最 坏 的 情况 下 ， 访 问 在 存储 器 层次 结构 的 TLB 、 页 表 和 cache 这 三 个 部 件 中 
都 发 生 缺 失 。 下 面 的 例子 将 详细 介绍 这 些 交 互 作 用 。 
四， 例题， 存储 器 层次 结构 的 全 部 操作 

存储 器 层次 结构 类 似 于 图 5-30， 由 一 个 TLB 和 一 个 cache 组 成 。 一 次 存储 器 访问 可 能 遇 到 三 
种 不 同类 型 的 缺失 : TLB 缺失 、 缺 页 以 及 cache 缺失 。 考 虑 这 三 种 缺失 发 生 一 个 或 多 个 时 所 有 可 
能 的 组 合 (7 种 可 能 性 )。 对 每 种 可 能 性 ， 说 明 这 种 情况 是 否 会 真 的 发 生 ， 在 什么 条 件 下 发 生 。 
加 :答案 

图 5-32 说 明了 所 有 可 能 发 生 的 组 合 以 及 事实 上 它们 是 否 真 的 可 能 发 生 。 
i 


可 能 ， 但 车 TLB 命中 就 不 可 能 检查 页 表 

TLB 缺失 ， 但 在 页 表 中 找到 表 项 ; 重 试 后 在 cache 中 找到 数据 
| 
| 
| 
| 

















TLB 缺失 ， 但 在 页 表 中 找到 表 项 ; 重 试 后 在 cache 中 未 找到 数据 
TLB 缺失 ， 随 后 发 生 缺 页 ; 重 试 后 在 cache 中 必 找 不 到 数据 
不 可 能 : 如 果 页 不 在 主 存 中 ，TLB 中 没有 此 转换 
不 可 能 : 如 果 页 不 在 主 存 中 ，TLB 中 没有 此 转换 
不 可 能 : 如果 页 不 在 主 存 中 ， 数 据 不 允许 在 cache 中 存在 
图 5-32 在 TLB、 虚 拟 存储 器 系统 以 及 cache 中 可 能 发 生 的 事件 组 合 。 在 这 些 组 合 中 ， 有 三 种 是 不 可 能 的 ， 
有 一 种 是 可 能 的 但 是 永远 不 可 能 检测 到 (TLB 命中 ， 虚 拟 存储 器 命中 ，cache 缺失 ) 口 
图! 精 解 ”图 5-32 假定 在 访问 cache 之 前 ， 所 有 存储 器 地 址 都 被 转换 成 物理 地 址 。 在 这 种 结构 
中 ，cache 是 按 物 理 地 址 索引 (physically indexed) 并 且 是 物理 标记 (physically tagged) 的 
(所 有 cache 的 索引 和 标记 都 用 物理 地 址 ， 而 不 是 虚拟 地 址 ) 。 在 这 个 系统 中 ， 假 定 cache 
命中 ， 那 么 访问 主 存 的 时 间 要 包括 对 TLB 访问 和 cache 访问 的 时 间 ， 当 然 ， 这些 访问 可 以 
流水 地 执行 。 
另外 ， 处 理 器 可 以 用 一 个 完整 的 或 者 部 分 虚拟 的 地 址 来 索引 cache。 这 称 为 虚拟 寻 址 
cache (virtually addressed cache) ， 它 使 用 虚拟 地 址 作为 标记 ; 因此 这 种 cache 是 按 虚 拟 地 
址 索引 (virtually indexed) 并 且 是 虚拟 标记 (virtually tagged) 的 。 在 这 种 cache 中 ， 地 址 
转换 硬件 (TLB) 在 正常 的 cache 访问 过 程 中 没有 被 用 到 ， 这 是 因为 使 用 的 是 没有 被 转换 
成 物理 地 址 的 虚拟 地 址 来 访问 cache 的 。 这 样 就 把 TLB 排除 在 关键 路 径 之 外 ,减少 了 
cache 延 时 。 当 cache 访问 缺失 时 ， 处 理 器 需要 将 该 地 址 转换 成 物理 地 址 以 便 从 主 存 中 取 
出 cache 块 。 
当 使 用 虚拟 地 址 访问 cache， 并 且 进 程 之 间 共 享 页 (进程 可 能 使 用 不 同 的 虚拟 地 址 访 
间 页 ) 时 ， 就 可 能 有 别名 (aliasing) 存在 。 当 同一 个 对 象 有 两 个 名 字 时 就 会 产生 别 
名 一 一 在 这 种 情况 下 ， 两 个 虚拟 地 址 对 应 于 同一 个 页 。 这 种 多 义 性 就 会 产生 一 个 问题 ， 由 
于 页 上 的 一 个 字 可 能 存在 于 cache 中 的 两 个 不 同位 置 ， 每 个 位 置 对 应 不 同 的 虚拟 地 址 。 这 
就 会 出 现 一 个 程序 写 数据 ， 而 另 一 个 程序 并 不 知道 数据 已 经 改变 的 情况 。 完 全 虚拟 寻 址 的 
cache 或 者 对 cache 和 TLB 的 设计 进行 限制 以 减少 别名 ,或 者 需要 操作 系统 也 可 以 是 让 用 
户 来 采取 措施 以 保证 别名 不 会 发 生 。 
这 两 种 设计 观点 常用 的 折 中 方法 是 采用 虚拟 地 址 索引 的 cache 






































有 时 仅仅 使 用 地 
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全 


址 的 页 偏 移 部 分 ， 由 于 没有 被 转换 ， 因 此 实际 上 是 物理 地 址 一 一 但 使 用 物理 标记 。 这 
些 采 用 虚拟 索引 和 物理 标记 的 设计 ， 试 图 同时 拥有 虚拟 地 址 索引 cache 的 优越 性 能 以 及 
物理 寻 址 cache (physical addressed cache) 的 简单 结构 。 例 如 ， 在 这 种 情况 下 就 没有 别 
名 的 问题 。 图 5-30 假定 的 页 大 小 为 4KiB, 但 实际 上 有 16KiB， 因 此 内 置 FastMATH 就 使 
用 了 这 种 方法 。 要 实现 这 种 方法 ， 必 须 在 最 小 页 大 小 、cache 大 小 以 及 相 联 度 之 间 进 行 
谨慎 的 权衡 。 


虚拟 寻 址 cache: 一 种 使 用 虚拟 地 址 而 不 是 物理 地 址 访问 的 cache。 

别名 : 使 用 两 个 地 址 访问 同一 个 目标 的 情形 ， 一 般 发 生 在 虚拟 存储 器 中 两 个 虚拟 地 址 对 应 
到 同一 个 物理 页 时 。 

物理 寻 址 cache: 使 用 物理 地 址 寻 址 的 cache。 


5.7.6 虚拟 存储 器 中 的 保护 


虚拟 存储 器 最 重要 的 功能 就 是 允许 多 个 进程 共享 一 个 主 存 ， 同 时 为 这 些 进程 和 操作 系统 提 


供 存储 保护 。 保 护 机 制 必须 确保 : 尽管 多 个 进程 在 共享 同一 个 主 存 ， 但 是 无 论 有 意 或 是 无 意 ， 


= 


个 恶意 进程 不 能 写 另 一 个 用 户 进程 或 者 操作 系统 的 地 址 空间 。TLB 中 的 写 访问 位 可 以 防止 一 


个 页 被 改写 。 如 果 没 有 这 一 级 保护 ， 计 算 机 病毒 将 更 加 泛滥 。 
邯 | 硬件 /软件 接口 ”为 了 使 操作 系统 能 保护 虚拟 存储 系统 ， 硬 件 至 少 提供 下 面 总 结 的 三 种 基 


0 


本 能 力 。 注 意 ， 由 于 前 两 者 都 需要 虚拟 机 ， 因 此 其 需求 相同 。 

1) 支持 至 少 两 种 模式 ， 并 指出 当前 运行 的 进程 是 用 户 进程 还 是 操作 系统 进程 ， 操 作 
系统 进程 也 称 为 超级 用 户 管理 (supervisor) 进程 、 核 心 进程 或 者 主管 进程 。 

2) 提供 一 部 分 处 理 器 的 状态 ， 这 部 分 内 容 是 用 户 进程 可 读 而 不 可 写 的 。 这 包括 指示 
处 理 器 是 处 于 用 户 态 还 是 管理 态 的 用 户 / 管 理 模 式 位 、 页 表 指 针 以 及 TLB。 操 作 系 统 可 以 
通过 使 用 只 能 在 管理 态 下 可 用 的 特殊 指令 对 它们 进行 写 操作 。 

3) 提供 能 让 处 理 器 在 用 户 态 和 管理 态 下 相互 切换 的 机 制 。 从 用 户 态 到 管理 态 的 转换 
通常 是 由 系统 调用 (system call) 异常 处 理 完成 的 ， 它 用 特殊 指令 (如 MIPS 指令 集中 的 
syscall) 将 控制 权 传 到 管理 代码 空间 的 指定 位 置 。 和 其 他 异常 处 理 一 样 ， 系 统 调用 处 的 程 
序 计数 器 中 的 值 被 保存 在 异常 程序 计数 器 中 (EPC)， 处理 器 被 置 于 管理 态 。 从 异常 中 返 
回 至 用 户 模式 ， 使 用 异常 返回 (return from exception) 指令 ， 将 重 置 用 户 模式 ， 并 且 跳 转 
到 EPC 中 的 地 址 处 。 

通过 使 用 这 些 机 制 并 且 把 页 表 保存 在 操作 系统 的 地 址 空间 中 ,操作 系统 可 以 更 改 页 
表 ， 并 且 阻 止 用 户 进 程 改 变 它们 ,确保 用 户 进程 只 能 访问 由 操作 系统 提供 给 它 的 存储 
部 分 。 


超级 用 户 管理 模式 : 也 称 作 核 心 模式 (kernel mode)。 运 行 操作 系统 进程 的 模式 。 
系统 调用 : 将 控制 权 从 用 户 模式 转换 到 管理 模式 的 特殊 指令 ， 和 触发 进程 中 的 一 个 异常 
机 制 。 


我 们 同样 要 防止 一 个 进程 读 取 另 一 个 进程 的 数据 。 例 如 ， 当 成 绩 放 在 处 理 器 的 主 在 中 ， 我 


们 不 希望 学 生 程 序 读 到 它们 。 一 旦 我 们 开始 共享 主 存 ， 必 须 赋予 进程 保护 数据 防止 被 其 他 进程 
读 或 写 的 能 力 ; 否则 ， 共 享 主 存 将 变 得 乱七八糟 。 


每 个 进程 有 它 自 己 的 虚拟 地 址 空间 。 因 此 ， 如 果 操 作 系 统管 理 页 表 的 组 织 ， 使 独立 的 虚拟 
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页 映射 到 不 相交 (disjoint) 的 物理 页 上 ， 就 能 使 得 一 个 进程 无 法 访问 另 一 个 进程 的 数据 了 。 当 
然 ， 这 也 要 求 一 个 用 户 进程 不 能 改变 页 表 的 上 映射。 如 果 操 作 系统 能 防止 用 户 进程 更 改 自己 的 页 
表 ， 那 么 安全 性 也 就 有 了 保证 。 然 而 ， 这 样 一 来 ， 操 作 系 统 必须 负责 修改 页 表 。 将 页 表 放 在 操 
作 系 统 的 保护 地 址 空间 就 能 满足 所 有 要 求 。 

当 进 程 希望 以 受 限 的 方式 共享 信息 时 ， 操 作 系 统 必 须 协助 它们 ， 这 是 因为 访问 另 一 个 进程 
的 信息 需要 改变 访问 进程 的 页 表 。 写 访问 位 可 以 用 来 把 共享 限制 为 只 读 ， 并 且 和 页 表 中 其 他 位 
一 样 ， 该 位 只 能 被 操作 系统 修改 。 为 了 允许 另 一 个 进程 ， 设 为 P1 ， 去 读 属于 进程 P2 的 一 页 ， 
P2 就 要 请 求 操 作 系统 在 Pl 地 址 空间 中 为 一 个 虚拟 页 生成 页 表 项 ， 指 向 P2 想 要 共享 的 物理 页 。 
如 果 P2 要 求 ， 操 作 系统 可 以 使 用 写 保护 位 以 防止 Pl 对 数据 进行 改写 。 由 于 只 有 TLB 缺失 才 会 
访问 页 表 ， 任 何 决定 页 的 访问 权限 的 位 不 仅 要 包含 在 页 表 中 ， 还 要 包含 在 TLB 中 。 


图 1 精 解 当 操作 系统 决定 从 执行 进程 Pl 切换 到 执行 进程 P2 ( 称 为 上 下 文 切换 (context 
switch ) ， 或 者 进程 切换 ) 时 ， 它 必须 保证 P2 不 能 访问 Pl 的 页 表 ， 否则 不 利于 数据 保护 。 
如 果 没 有 TLB， 只 要 把 页 表 寄 存 器 转 而 指向 P2 的 页 表 (而 不 是 Pl 的 ) 就 足够 了 ; 如 果 有 
TLB， 我 们 必须 在 其 中 清除 属于 Pl 的 表 项 一 一 不 仅 是 为 了 保护 Pl 的 数据 ， 而 且 是 为 了 迫 
使 TLB 装 入 P2 的 表 项 。 如 果 进 程 切换 的 频率 很 高 ， 这 一 举措 的 效率 就 很 低 。 例 如 ， 在 操 
作 系 统 切 换 回 Pl 之 前 ，P2 可 能 只 装 入 了 很 少 的 TLB 表 项 。 不 幸 的 是 ，P1 随后 发 现 它 所 
有 的 表 项 都 不 见 了 ， 因 此 不 得 不 通过 TLB 缺失 来 重新 加 载 这 些 表 项 。 产 生 这 个 问题 是 因 
为 Pl 和 P2 使 用 同一 个 虚拟 地 址 空间 ， 并 且 我 们 必须 清除 TLB 以 防止 地 址 混淆 。 

另 一 种 常用 的 方法 则 是 通过 增加 进程 标识 符 (process identifier) 和 任务 标识 符 (task 
identifier) 来 扩展 虚拟 地 址 空间 。 为 此 内 置 FastMATH 有 8 位 地 址 空间 标识 域 (ASID ) 。 就 
是 这 个 域 标 识 了 当前 正在 运行 的 进程 ; 当 进 程 切换 时 ， 它 保存 在 由 操作 系统 装 入 的 寄存 器 
中 。 进 程 标识 符 与 TLB 的 标记 部 分 相连 接 ， 因 此 只 有 在 页 号 和 进程 标识 符 同 时 匹配 时 ， 
TLB 才 会 发 生命 中 。 这 样 的 话 ， 除 非特 殊 情况 ， 否 则 我 们 就 不 需要 清除 TLB。 

同样 的 问题 可 能 在 cache 中 发 生 ， 这 是 由 于 在 进程 切换 的 时 候 ，cache 包含 正在 执行 
的 进程 的 数据 。 对 物理 寻 址 和 虚拟 寻 址 的 cache 来 说 ， 这 些 问题 以 不 同方 式 产生 ， 并 且 有 
不 同 的 解决 方法 ， 比 如 使 用 进程 标识 符 来 确保 一 个 进程 只 能 获得 它 自己 的 数据 。 


仿 ” 上 下 文 切换 : 为 允许 另 一 个 不 同 的 进程 使 用 处 理 器 ， 改 变 处 理 器 内 部 的 状态 ， 并 保存 当前 
进程 返回 时 需要 的 状态 。 





5.7.7 处 理 TLB 缺失 和 缺 页 


尽管 当 TLB 命中 时 ， 利 用 TLB 将 虚拟 地 址 转换 成 物理 地 址 是 很 简单 的 ， 但 是 处 理 TLB 缺 
失 和 缺 页 要 复杂 得 多 。 当 TLB 中 没有 一 个 表 项 能 匹配 虚拟 地 址 时 ，TLB 缺失 就 会 发 生 。TLB 缺 
失 有 下 面 两 种 可 能 性 之 一 : 

1) 页 在 主 存 中 ， 只 需要 创建 缺失 的 TLB 表 项 。 

2) 页 不 在 主 存 中 ， 需 要 将 控制 权 交 给 操作 系统 来 解决 缺 页 。 

MIPS 通常 采用 软件 来 处 理 TLB 缺失 。 它 从 主 存 中 取出 页 表 项 装 人 TLB ， 然 后 重新 执行 引 
起 TLB 缺失 的 那 条 指令 ， 这 时 就 会 得 到 TLB 命中 。 如 果 页 表 项 指出 该 页 不 在 主 在 中 ， 此 时 就 
会 发 生 缺 页 异常 。 

处 理 TLB 缺失 或 者 缺 页 需要 使 用 异常 机 制 来 中 断 活跃 的 进程 ， 将 控制 权 传 给 操作 系统 ， 然 
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后 恢复 执行 被 中 断 的 进程 。 缺 页 将 在 主 存 访问 时 钟 周期 的 某 一 时 刻 被 发 现 。 为 了 在 缺 页 处 理 完 
毕 后 重新 启动 引起 缺 页 的 指令 ， 必 须 保 存 该 指令 的 程序 计数 器 中 的 值 。 正 如 第 4 章 所 述 ， 异 常 
程序 计数 器 (上 Exception Program Counter，EPC) 用 来 保存 这 个 值 。 

另外 ，TLB 缺失 或 者 缺 页 异常 必须 在 访 存 发 生 的 同一 个 时 钟 周 期 的 末尾 被 判定 ， 因 此 下 
一 个 时 钟 周 期 就 开始 进行 异常 处 理 而 不 是 继续 正常 的 指令 执行 。 如 果 在 这 个 时 钟 周期 没有 
断定 缺 页 发 生 ， 一 而 当 我 们 试图 重新 启动 指令 时 ， es 
灾难 性 的 错误 。 例 如 ， 考 虑 指令 lw $1,0 ($1) :计算 机 必须 防止 写 流 水 级 发 生 ， 和 否则 ， 
不 能 重新 启动 指令 ， 因 为 $1 的 内 容 将 被 破坏 。store 指令 也 会 发 生 类 似 复 杂 情 况 。 i 
页 而 没有 完成 处 理 时 ,我 们 必须 阻止 写 主 存 的 操作 ; 这 通常 是 通过 令 到 主 存 写 控制 线 为 无 
效 来 完成 。 


加 ,硬件 /软件 接口 ”在 操作 系统 开始 进行 异常 处 理 和 保存 处 理 器 所 有 状态 位 的 时 候 ， 操 作 系统 特 
别 脆弱 。 例 如 ， 如 果 在 操作 系统 中 正在 处 理 第 一 个 异常 时 ， 另 一 个 异常 又 发 生 了 ， 控 制 单元 将 
重 写 异常 程序 计数 器 ， 就 不 能 返回 引起 缺 页 的 那 条 指令 。 我 们 可 以 通过 提供 禁止 异常 ( disable 
exception) 和 使 能 异常 《enable exception) 来 避免 这 种 错误 的 发 生 。 当 异常 第 一 次 发 生 时 ， 处 
理 器 设置 一 个 管理 态 模式 位 ， 禁 止 其 他 异常 的 发 生 ; 这 可 以 与 处 理 器 设置 管理 态 模式 位 同时 
进行 。 随 后 操作 系统 保存 足够 的 状态 ， 如 果 有 另 一 个 异常 发 生 一 异常 程序 计数 器 ( EPC) 
和 异常 引发 寄存 器 也 能 保存 这 些 状 态 。 异 常 程 序 计数 器 和 异常 引发 寄存 器 是 协助 处 理 异常 、 
TLB 缺失 以 及 缺 页 的 两 个 特殊 控制 寄存 器 ; 图 5-33 列 出 了 其 他 的 寄存 器 。 而 后 操作 系统 可 
以 重新 允许 异常 发 生 。 这 些 步骤 保证 了 异常 不 会 使 处 理 器 丢失 任何 状态 ， 因 此 也 就 不 会 出 现 
无 法 重新 执行 中 断 指令 的 情况 。 


允 使 能 异常 : 也 称 为 中 断 使 能 (interrupt enable) ， 用 于 控制 处 理 器 是 否 响应 异常 的 信号 或 动 
作 ; 在 处 理 器 安全 地 保存 重启 所 需 信 息 之 前 ， 必 须 阻 止 异 常 的 发 生 。 


DO 


















































EPC 网 异常 之 后 重启 的 位 置 
Cause | 13 异常 的 原因 
BadVAddr 8 引发 异常 的 地 址 | 
Index 0 TLB 中 读 / 写 的 位 置 
Random 1 | TLB 中 伪 随 机 位 置 
EntryLo 2 物理 页 地 址 和 标记 位 
EntryHi | 10 虚 页 地 址 
Context 4 页 表 地 址 和 页 号 

图 5-33 ”MIPS 控制 寄存 器 。 这 些 寄存 器 被 视 为 位 于 协 处 理 器 0 中 ， 因 此 读 时 使 用 mfc0 ， 
写 时 使 用 mtc0 


一 旦 操作 系统 知道 了 引起 缺 页 的 虚拟 地 址 ， 它 必须 完成 以 下 三 个 步骤 : 
1) 使 用 虚拟 地 址 查找 页 表 项 ， 并 在 磁盘 上 找到 被 访问 的 页 的 位 置 。 
2) 选择 替换 一 个 物理 页 ; 如 果 被 选中 的 页 被 修改 过 ， 需 要 在 把 新 的 虚拟 页 装 和 之 前 将 这 个 
物理 页 写 回 到 磁盘 上 。 
启动 读 操作 ， 将 被 访问 的 页 从 磁盘 上 取 回 到 所 选择 的 物理 页 的 位 置 上 。 
当然 ， 最 后 一 个 步骤 将 花费 数 百 万 个 时 钟 周期 ( 如果 被 替换 的 页 被 重 写 过 ， 那 么 第 二 步 也 需 
要 花费 这 么 多 时 间 ) ; 因此 ， 操 作 系 统 通 常 都 会 选择 男 一 个 进程 在 处 理 器 上 执行 直到 磁盘 访问 结 
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束 。 由 于 操作 系统 已 经 保存 了 当前 进程 的 状态 ， 因 此 它 可 以 很 方便 地 将 控制 权 交 给 另 一 个 进程 。 

当 从 磁盘 读 页 的 操作 完成 后 ， 操 作 系统 可 以 恢复 原先 引起 缺 页 的 进程 状态 ， 并 且 执 行 从 异 
常 返回 的 指令 。 该 指令 将 处 理 器 从 核心 态 恢复 到 用 户 态 ， 同 时 也 恢复 程序 计数 器 的 值 。 用 户 进 
程 接着 重新 执行 引发 缺 页 的 那 条 指令 ， 成 功 地 访问 请 求 的 页 ， 然 后 继续 执行 。 

数据 访问 引起 的 缺 页 异常 很 难处 理 ， 这 是 由 于 以 下 三 个 特性 : 

1) 它们 发 生 于 指令 中 间 ， 不 同 于 指令 缺 页 。 

2) 在 异常 处 理 前 指令 没有 结束 。 

3) 异常 处 理 之 后 ， 指 令 必须 重新 执行 ， 就 好 像 什 么 都 没 发 生 过 一 样 。 

要 保持 指令 可 重新 启动 ( restartable) ， 这 样 异常 被 处 理 之 后 ， 指 令 也 能 继续 执行 ， 这 在 类 
似 于 MIPS 的 结构 中 的 实现 相对 简单 。 因 为 每 条 指令 只 能 写 一 个 数据 项 并 且 只 能 在 指令 周期 的 
最 后 进行 写 操 作 ， 我 们 就 可 以 阻止 指令 的 完成 不 执行 写 操作 ) 并 且 在 开始 处 重新 启动 指令 。 


全 “可 重启 指令 : 一 种 在 异常 被 处 理 之 后 能 从 异常 中 恢复 而 不 会 影响 指令 的 执行 结果 的 指令 。 


我 们 再 来 看 MIPS 的 一 些 细节 。 当 TLB 发 生 缺 失 时 ，MIPS 的 硬件 将 被 引用 的 页 号 保存 在 一 
个 叫 BadVAddr 的 特殊 寄存 器 里 ， 然 后 产生 异常 。 

这 个 异常 请 求 操 作 系统 通过 软件 来 处 理 缺 失 。 控 制 权 被 传 到 地 址 8000 0000, 一 一 TLB 缺失 
处 理 程 序 (handler) 的 位 置 。 为 了 找到 缺失 页 的 物理 地 址 ，TLB 缺失 处 理 程序 使 用 虚拟 地 址 的 
页 号 ， 以 及 指向 活动 进程 页 表 起 始 地 址 的 页 表 寄 存 器 来 检索 页 表 。 为 了 能 快速 地 检索 ，MIPS 
将 所 需 的 一 切 信息 都 放 在 特殊 的 现场 寄存 器 (Context) 中 : 高 12 位 是 页 表 的 基准 地 址 ， 接 
下 来 的 18 位 是 缺失 页 的 虚拟 地 址 。 每 个 页 表 项 是 1 个 字 ， 因 此 最 后 两 位 为 0。 因 此 ， 头 两 条 指 
令 将 现场 寄存 器 中 的 内 容 复制 到 内 核 临 时 寄存 器 $k1 中 ， 然 后 根据 其 中 的 地 址 将 页 表 项 装 人 
$kl。 回 想 $k0 和 $kl 是 为 操作 系统 保留 的 不 做 保存 的 寄存 器 ; 这 样 做 的 主要 康 因 是 使 得 
TLB 缺失 处 理 程序 执行 得 更 快 。 下 面 是 典型 的 TLB 缺失 处 理 程序 的 MIPS 代码 : 


TLBmiss: 
mfc0 $kl,Context # copy address of PTE into temp $kl 
Iw $k1,0($k1) # put PTE into temp $kl 
mtc0 $kl,EntryLo # put PTE into special register EntryLo 
tl1bwr # put EntryLo into TLB entry at Random 
eret # return from TLB miss exception 


”处理 程序 : 用 于 “处 理 ” 异 常 或 中 断 的 软件 程序 的 名 字 。 


正如 上 面 所 示 ，MIPS 有 一 组 特殊 的 系统 指令 用 来 更 新 TLB。 指 令 tlbw 把 控制 寄存 器 
EntryLo 中 的 内 容 复制 到 由 控制 寄存 器 Random 所 选择 的 TLB 表 项 中 。Random 实现 随机 替 
换 ， 所 以 它 基 本 上 是 一 个 独立 运行 的 计数 器 。TLB 缺失 大 概要 花费 12 个 时 钟 周期 。 

注意 到 TLB 缺失 处 理 程序 并 不 检查 页 表 项 是 否 有 效 。 因 为 发 生 TLB 表 项 缺失 异常 比 缺 页 
异常 要 频繁 得 多 ， 所 以 操作 系统 对 页 表 中 的 表 项 并 不 做 检查 就 直接 装 人 TLB 并 重新 执行 指令 。 
如 果 表 项 无 效 ， 另 一 个 不 同 的 异常 就 发 生 ， 操 作 系 统 认 为 缺 页 。 这 种 方法 让 频繁 发 生 的 TLB 缺 
失 处 理 得 快 一 些 ， 但 是 对 不 频繁 发 生 的 缺 页 处 理 就 会 有 一 些 性 能 损失 。 

一 旦 产生 缺 页 的 进程 被 中 断 ， 控 制 权 就 被 转 到 8000 0180,。， 这 是 一 个 与 TLB 缺失 处 理 程序 
不 相同 的 地 址 。 它 是 处 理 异常 的 通用 地 址 ; TLB 缺失 有 一 个 专门 的 入 口 点 是 为 了 减少 TLB 缺失 
代价 的 。 操 作 系 统 使 用 异常 引发 寄存 器 来 判断 产生 异常 的 原因 。 由 于 是 缺 页 异常 ， 操 作 系 统 知 
道 需要 进一步 处 理 。 因 此 ， 不 同 于 TLB 缺失 ， 它 保存 了 活动 进程 的 全 部 状态 ， 包 括 所 有 的 通用 
寄存 器 和 浮 点 寄存 器 、 页 表 地 址 寄存 器 、EPC 和 异常 引发 寄存 器 的 状态 。 由 于 浮 点 寄存 器 在 异 
常 处 理 程序 不 常 使 用 ， 因 此 通用 入 口 点 并 没有 保存 它们 ， 而 是 留 给 少数 需要 它们 的 处 理 者 。 
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图 5-34 描述 了 异常 处 理 程序 的 MIPS 代码 。 我 们 使 用 MIPS 代码 来 保存 和 恢复 状态 ， 注 意 
何 时 允许 和 禁止 异常 ， 但 是 我 们 调用 C 代码 来 处 理 特殊 的 异常 。 


Save GPR addi 
Sw 
Sw 


mfhi 
mflo 
SW 
SW 


mfc0 
Sw 
mfc0 
SW 


Set $gp move 


move 
Call C code jal 


Restore most 
GPR, hi, 10o 


Restore $sp 
and rest of 
GPR used as 
temporary 
registers 


Restore ERC mtc0 


and return Bet 


Skl, $sp, -XCPSLAE 
,XCT_SP($Kk1) 
， XCT_VO($k1) 


XCT_RA( $k1) 


$v0 
$Vv1 
$v0 ， 
$v1, 


$a0, $er 
$a0, XCT_CR($k1) 


$a3, $sr 
$a3, XCT_SR($k1) 


# save space on stack for state 

# save $sp on stack 

# save $v0 on stack 

# save $vl1l, $ai, $si, $ti,... on stack 
# save 


# copy 
# copy 
# save Hi value on stack 
# save Lo value on stack 


# copy cause register 

# save $cr value on stack 
# save 

# copy status register 

# save $sr on stack 


# sp = sp - XCPSIZE 


调用 CC 异常 处 理 程 序 


$gp, GPINIT 


$a0, $sp 
xcpt_deliver 


“$sSp 
， XCT_RA($at) 


， XCT_AO( $k1) 
XCT_SR($at) 
MASK2 


$vO, $v1 
sr 





# set $gp to point to heap area 


# argl = pointer to exception stack 
# call C code to handle exception 


# temporary value of $s 
# restore $ra from stac 
# restore $t0 $al 
# restore $a0 from stack 


# load old $sr from stack 

# mask to disable exceptions 

F $vO = $sr & MASK2, disable exceptions 
# set status register 


异常 返回 


i XACT Spat) 
,XCT_VO( $at) 
,XCT_V1($at) 
: XCT EPCE Wat 
,XCT_AT($at) 
$kl, $epc 
$ra 


# restore $sp from stack 
# restore $v0 from stack 
# restore $v1l from stack 
# copy old $epc from stack 
# restore $at from stack 


# restore $epc 
# return to interrupted instruction 


图 5-34 异常 时 保存 状态 和 恢复 状态 的 MIPS 码 





引发 缺失 的 虚拟 地 址 取决 于 当前 缺失 是 指令 缺失 还 是 数据 缺失 。 产 生 缺 失 的 指令 地 址 在 
EPC 中 。 如 果 是 指令 缺 页 ，EPC 中 包含 了 缺失 页 的 虚拟 地 址 ; 和 否则， 缺失 页 的 虚拟 地 址 可 以 通 
过 查看 指令 (指令 地 址 在 EPC 中 ) ， 找 到 基 址 寄存 器 和 偏 移 量 来 计算 得 到 。 


图 | 精 解 ” 这 个 简化 版 本 假设 了 堆栈 指针 (sp) 有 效 。 为 了 避免 执行 低层 异常 代码 时 发 生 缺 
页 的 问题 ，MIPS 预 留 了 一 部 分 不 会 产生 缺 页 的 地 址 空间 ， 称 为 非 映射 (unmapped)。 操 
作 系 统 将 异常 入 口 点 代码 和 异常 堆栈 存放 在 非 映 射 的 内 存 中 。MIPS 硬件 将 虚拟 地 址 
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8000 0000is ~ BFFF FFFF。 转 换 成 物理 地 址 时 ， 虚 拟 地 址 的 高 位 忽略 不 计 ， 即 把 这 些 地 址 
放 在 物理 内 存 的 低位 。 因 此 ,操作 系统 就 将 异常 入 口 点 和 异常 堆栈 放置 于 非 映 射 的 主 
存 中 。 


人 非 映 射 : 地 址 空间 中 的 一 个 部 分 ， 在 这 个 区 域 不 会 导致 缺 页 异常 。 


加 精 解 图 5-34 中 的 代码 显示 了 MIPS -32 的 异常 返回 序列 。 早 先 的 MIPS-I 架构 采用 rfe 
和 jr 来 代替 eret。 

团 ) 精 解 ” 对 于 有 着 更 为 复杂 指令 的 处 理 器 来 说 ， 可 能 会 访问 主 存 中 的 很 多 位 置 并 且 写 很 多 数 
据 项 ， 这 就 使 指令 重新 启动 变 得 更 加 困难 。 处 理 一 条 指令 可 能 在 指令 中 间 产 生 多 次 缺 页 。 
例如 ，x86 处 理 器 有 能 访问 成 百 上 千 数据 字 的 块 移动 指令 。 在 这 样 的 处 理 器 中 ， 指 令 通常 
无 法 像 在 MIPS 中 那样 从 起 始 位 置 重新 启动 。 相 反 ， 指 令 必 须 被 中 断 ， 稍 后 从 执行 中 断 处 
继续 执行 。 在 执行 的 中 间 恢 复 一 条 指令 通常 需要 保存 一 些 特殊 状态 ， 处 理 异 常 ， 然 后 恢复 
那些 特殊 状态 。 要 正确 地 执行 这 项 工作 需要 在 操作 系统 的 异常 处 理 代码 和 硬件 中 进行 细致 
而 详细 的 协调 。 

加] 精 解 -与 每 次 存储 器 访问 都 需要 一 次 间接 寻 址 不 同 ， 虚 拟 机 支持 一 个 影子 页 表 (shadow 
page table) 用 于 进行 用 户 虚拟 地 址 到 硬件 物理 地 址 的 转换 。 通 过 检测 对 用 户 页 表 的 所 有 
修改 ， 虚 拟 机 可 以 确保 硬件 正在 用 于 转换 的 影子 页 表 表 项 与 用 户 操作 系统 中 的 页 表 表 项 一 
致 ， 不 同 的 是 在 用 户 页 表 中 使 用 正确 的 物理 地 址 替代 了 实地 址 。 因 此 ， 虚 拟 机 必须 在 用 户 
操作 系统 试图 改变 其 页 表 或 访问 页 表 指 针 时 产生 自 陷 。 这 通常 由 用 户 操作 系统 通过 对 用 户 
页 表 进 行 写 保护 和 对 页 表 指 针 的 任何 访问 产生 自 陷 来 实现 。 如 前 所 述 ， 如 果 是 特权 操作 访 
问 页 表 指 针 后 会 发 生 后 面 一 种 情况 。 

邯 | 精 解 ”体系 结构 中 需要 虚拟 化 的 最 后 一 部 分 是 IO。 由 于 计算 机 中 LO 设备 数量 和 类 型 不 
断 增加 ，1/O 虚拟 化 就 变 成 了 系统 虚拟 化 中 最 困难 的 一 部 分 。 另 外 一 个 难点 是 多 个 虚拟 机 
之 间 共 享 实际 的 设备 。 还 有 一 个 问题 是 要 支持 大 量 的 设备 驱动 程序 ， 这 在 一 个 支持 多 个 用 
户 操作 系统 的 虚拟 系统 上 更 加 严重 。 它 为 每 种 虚拟 机 中 各 种 类 型 的 LO 设备 提供 一 个 通用 
的 驱动 ， 并 且 将 其 留 给 VMM 以 管理 实际 的 IO。 

邯 | 精 解 除了 要 对 指令 集 进 行 虚拟 之 外 ， 另 一 个 挑战 是 虚拟 存储 器 的 虚拟 化 ， 这 主要 是 因为 
每 种 虚拟 机 上 的 操作 系统 要 维护 自己 的 页 表 。 为 了 使 其 工作 ， 虚 拟 机 中 实 存储 器 和 物理 存 
储 器 是 两 个 不 同 的 概念 (这 两 个 概念 通常 被 认为 是 相同 的 ) ， 实 存储 器 是 位 于 虚拟 存储 器 
和 物理 存储 器 之 间 的 一 个 独立 的 层次 。( 有 人 使 用 虚拟 存储 器 、 物 理 存储 器 和 机 器 存储 器 
来 表示 相同 的 三 个 层次 。) 用 户 操作 系统 通过 其 页 表 将 虚拟 存储 器 映射 到 实 存储 器 ， 虚 拟 
机 页 表 将 用 户 实 存储 器 映射 到 物理 存储 器 ， 虚 拟 存储 器 体系 结构 要 么 如 IBM VM/370 和 
x86 一 样 通过 页 表 实 现 ， 要 么 如 MIPS 一 样 通 过 TLB 实现 。 


5.7.8 小 结 


虚拟 存储 器 是 管理 主 存 和 磁盘 之 间 数 据 缓 存 的 一 级 存储 器 层次 。 虚 拟 存储 器 允许 单个 程序 
在 主 存 有 限 的 范围 内 扩展 地 址 空间 。 更 重要 的 是 ， 虚 拟 存储 器 以 一 种 保护 的 方式 ， 同 时 支持 多 
个 活路 的 进程 共享 主 存 。 

管理 主 存 和 磁盘 之 间 的 存储 器 层次 结构 很 具有 挑战 性 ， 这 是 因为 缺 页 的 代价 很 高 。 通 常 采 
用 下 面 一 些 技术 来 降低 缺失 率 : 
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1) 增 大 页 的 容量 以 便利 用 空间 局 部 性 并 降低 缺失 率 。 

2) 使 用 页 表 实 现 的 虚拟 地 址 和 物理 地 址 之 间 的 映射 采用 全 相 联 的 方式 ， 这样 虚拟 页 就 可 
以 被 放置 到 主 存 中 的 任何 位 置 。 

3) 操作 系统 使 用 类 似 LRU 和 访问 位 之 类 的 技术 来 选择 替换 哪 一 页 

写 磁盘 的 代价 是 很 高 的 ， 因 此 虚拟 存储 器 使 用 写 回 机 制 并 且 跟 踪 是 否 有 一 页 更 改过 (采用 
脏 位 ) 以 避免 把 没有 变化 的 页 写 回 到 磁盘 。 

虚拟 存储 器 机 制 提供 了 从 被 程序 使 用 的 虚拟 地 址 到 用 来 访问 主 存 的 物理 地 址 空间 之 间 的 转 
换 。 这 个 地 址 转换 允许 对 主 存 进 行 受 保护 的 共享 ， 同 时 还 提供 了 很 多 额外 的 好 处 ， 如 简化 了 存 
储 吕 分配。 为 了 保证 进程 间 受 到 保护 ， 要 求 上 只 有 操作 系统 才能 改变 地 址 变换 ， 这 是 通过 防止 用 
户 程序 更 改 页 表 来 实现 的 。 可 以 在 操作 系统 的 帮助 下 实现 在 进程 之 间 受 控制 地 共享 页 ， 页 表 中 
的 访问 位 被 用 来 指出 用 户 程序 对 页 进行 读 访问 还 是 写 访 问 。 

如 果 对 于 每 一 次 访问 ， 处 理 器 不 得 不 访问 主 存 中 的 页 表 来 进行 转换 ， 这 样 虚拟 存储 器 的 开 
销 将 很 大 ，cache 也 将 失去 意义 。 相 反 ， 对 于 页 表 ，TLB 扮演 了 地 址 转换 cache 的 角色 ， 利 用 
TLB 中 的 变换 ， 将 虚拟 地 址 转换 为 物理 地 址 。 

cache、 虚 拟 存储 器 以 及 TLB 都 建立 在 一 组 共同 的 原理 和 策略 基础 上 。 下 一 节 讨 论 这 个 共 
同 的 架构 。 


臣 】 理解 程序 性 能 尽管 虚拟 存储 器 能 使 一 个 小 容量 的 存储 器 看 起 来 像 大 容量 的 存储 器 ， 但 
二 级 存储 器 和 主 存 之 间 的 性 能 差异 意味 着 ， 如 果 一 个 程序 经 常 访问 比 它 拥有 的 物理 存 
储 器 多 的 虚拟 存储 器， 程序 运行 速度 就 会 很 慢 。 这 样 的 程序 会 不 断 地 在 存储 器 和 磁极 
之 间 交 换 页 面 ， 称 为 拌 动 (thrashing)。 拌 动 的 发 生 将 会 是 灾难 ,但 很 少见 。 如 果 你 的 
程序 产生 抖动 ， 那 么 最 简单 的 解决 方式 就 是 让 你 的 程序 在 一 个 有 着 更 大 存储 器 的 计算 
机 上 和 运行 ， 或 者 为 你 的 计算 机 增加 存储 器 。 一 个 复杂 的 办 法 是 重新 检查 所 使 用 的 算法 
和 数据 结构 ， 看 看 能 否 改变 它 的 局 部 性 ， 从 而 减少 程序 同时 使 用 的 页 数 。 这 一 组 页 通 
常 被 称 为 工作 集 (working set) 。 

一 个 更 常见 的 性 能 问题 是 TLB 缺失 。 由 于 TLB 同时 只 能 处 理 32 ~64 个 页 表 项 ， 一 个 
程序 很 容易 会 有 较 高 的 TLB 缺失 率 ， 因 为 处 理 器 只 能 直接 访问 不 到 64 x4KiB =0.25MiB。 

例如 ， 对 于 基数 排序 ， he ee 为 了 缓解 这 个 问题 ， 现 在 很 多 计算 机 体 
系 结构 都 支持 可 变 的 页 。 例如， 除了 4KiB 的 标准 页 面 ，MIPS 硬件 还 支持 16KiB、 
64KiB、256KiB、1MiB、4MiB、16MiB、64MiB 和 256MiB 大 小 的 页 面 。 因此， 如 果 一 
序 使 用 大 容量 的 页 面 ， 就 能 直接 访问 更 多 主 存 而 不 会 有 TLB 缺失 。 

令 操 作 系 统 允 许 程序 选择 这 些 大 容量 的 页 面 也 是 一 个 实际 的 难题 。 同 样 ， 减 少 TLB 
缺失 更 为 复杂 的 方法 是 重新 检查 算法 和 数据 结构 以 减少 页 面 工作 集 ; 另外 ， 由 于 存储 器 访 
问 对 于 性 能 以 及 TLB 缺失 频率 至 关 重 要 ， 所 以 一 些 工作 集 较 大 的 程序 已 经 在 这 方面 做 了 
重新 设计 。 


图 | 小 测验 
将 左边 的 存储 器 层次 结构 组 成 部 分 与 右边 最 匹配 的 说 明 连 线 : 
1. 一 级 cache a. Cache 的 cache 
2. 二 级 cache b. 磁盘 的 cache 
3; 主 存 c. 主 存 的 cache 
4. TLB | d. 页 表 项 的 cache 


大 容量 和 高 速度 : 开发 在 入 器 层次 结构 309 








5.8 存储 器 层次 结构 的 一 般 框架 


到 目前 为 止 ， 我 们 已 经 知道 了 不 同类 型 的 存储 器 层次 结构 共用 许多 原理 。 尽 管 存储 器 层次 
结构 中 很 多 方面 都 有 量 的 区 别 ， 但 是 决定 层次 结构 如 何 运作 的 许多 策略 和 特征 在 本 质 上 是 相同 
的 。 图 5-35 给 出 了 存储 器 层次 结构 的 一 些 量 的 特征 区 别 。 在 本 节 的 剩余 部 分 ， 我 们 将 讨论 存 
储 器 层次 结构 的 共同 运作 方面 以 及 这 些 方面 将 如 何 决定 它们 的 行为 。 我 们 通过 一 系列 适用 于 存 
储 器 层次 结构 两 层 之 间 的 4 个 问题 来 研究 这 些 策略 ， 为 了 简单 起 见 ， 我 们 主要 使 用 cache 中 的 
术语 。 


特征 一 级 cache 二 级 cache 页 式 存储 器 的 TLB 的 
的 典型 值 的 典型 值 典型 值 上 典型 值 
块 的 总 容量 250 ~2 000 2 500 ~25 000 | 16 000 ~250 000 
以 KB 计量 的 总 容量 | 16-64 125 ~2 000 1 000 000 ~ 1 000 000 000 


块 的 字 节 数 16 ~64 | 64 ~128 4 000 ~64 000 
缺失 代价 的 时 钟 周期 数 10 ~25 100 ~ 1 000 10 000 000 ~ 100 000 000 
缺失 率 (二 级 cache 是 全 局 缺失 ) | 2% ~5% 0.1% ~2% 0. 000 01% ~0.0001% 


图 5-35 计算 机 中 存储 器 层次 结构 主要 组 成 部 分 的 关键 定量 设计 参数 。 本 图 是 这 些 层次 在 2012 年 的 典型 
值 。 值 的 范围 很 大 ， 一 部 分 原因 是 许多 值 是 随 着 时 间 的 变化 而 变化 的 ; 例如 ， 当 cache 容量 变 
大 以 克服 较 高 的 缺失 代价 时 ， 块 容量 也 随 之 增长 。 图 中 没有 显示 的 是 ， 服 务 器 处 理 器 中 还 有 三 
级 cache， 容 量 通常 为 2 ~8MiB， 块 数 比 二 级 cache 多 很 多 。 三 级 cache 使 二 级 cache 的 缺失 代价 
降低 到 30 ~ 40 个 时 钟 周期 


5. 8.1 问题 1: 一 个 块 可 以 被 放 在 何 处 


我 们 已 经 看 到 ， 可 以 根据 很 多 机 制 将 块 放置 到 存储 器 层次 的 较 高 层 结 构 中 ， 从 直接 映射 到 
组 相 联 ， 再 到 全 相 联 。 就 像 前 面 所 提 到 的 ， 这 些 机 制 都 可 以 看 成 是 组 数 和 每 组 块 数 各 不 相同 的 
组 相 联 方案 的 特例 : 
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直接 映射 cache 中 的 块 数 1 
组 相 联 cache 中 的 块 数 / 相 联 度 相 联 度 (一 般 为 2 ~16) 
全 相 联 1 cache 中 的 块 数 





增加 相 联 度 的 好 处 在 于 它 通常 能 降低 缺失 率 。 缺 失 率 的 改进 来 自 于 减少 竞争 同一 位 置 而 产 
生 的 缺失 。 我 们 稍 后 将 详细 讨论 。 首 先 来 看 能 获得 多 少 性 能 改进 。 图 5-36 显示 了 不 同 的 cache 
容量 ， 在 相 联 度 从 直接 映射 到 八路 组 相 联 之 间 变 化 的 缺失 率 。 最 大 的 改进 出 现在 直接 映射 变化 
到 两 路 组 相 联 ， 缺 失 率 下 降 了 20% ~30% 。 当 cache 容量 增加 时 ， 相 联 度 的 提高 对 性 能 改进 作 
用 很 小 ; 这 是 因为 大 容量 cache 的 总 的 缺失 率 很 低 ， 从 而 改进 缺失 率 的 机 会 减少 ， 并 且 由 相 联 
度 引 起 的 缺失 率 的 绝对 改进 明显 减少 。 如 前 所 述 ， 相 联 度 增加 的 潜在 缺点 是 增加 了 代价 以 及 访 
问 时 间 。 
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图 5-36” 当 相 联 度 增 加 时 ，8 种 不 同 容量 数据 cache 各 自 的 缺失 率 。 从 一 路 〈 直 接 映射 ) 到 两 路 组 相 联 
变化 时 获 益 明显 ， 进 一 步 增加 相 联 度 所 获得 的 好 处 就 小 一 些 了 (例如 ， 从 两 路 到 四 路 提高 了 
1% ~10% ， 而 从 一 路 到 两 路 提高 了 20% ~30% ) 。 从 四 路 到 八路 组 相 联 ， 缺 失 率 的 改进 更 小 ， 
它们 反而 接近 于 全 相 联 cache 的 缺失 率 。 容 量 小 的 cache 由 于 其 本 身 缺 失 率 较 高 ， 因 此 从 相 联 
度 所 获得 的 好 处 就 很 明显 。 图 5-16 解释 了 这 些 数 据 是 如 何 收集 的 


5.8.2 问题 2， 如 何 找到 一 个 块 


我 们 如 何 选择 一 个 块 的 存放 位 置 取决 于 块 放 置 机 制 ， 因 为 它 指明 了 可 能 存放 位 置 的 数量 。 
我 们 可 以 把 这 些 机 制 总 结 如 下 : 




















相 联 度 - 0 ”定位 方法 | 可比 术 的 次 数 
直接 映射 索引 | 1 
组 相 联 索引 组 ， 查 找 组 中 元 素 | 相 联 的 度 
月 cache 项 ache 的 容量 
pe 查找 所 有 eaehe 避 | cache 的 容量 
独立 的 查找 表 0 


在 存储 器 层次 结构 中 选择 直接 映射 、 组 相 联 还 是 全 相 联 映射 取决 于 缺失 代价 和 相 联 度 实现 
代价 的 权衡 情况 ,包括 了 时 间 和 额外 硬件 开销 。 在 片 内 拥有 二 级 cache 允许 实现 更 高 的 相 联 
度 ,， 这 是 因为 命中 时 间 不 再 关键 ,设计 者 也 不 用 依靠 标准 SRAM 芯片 来 构建 块 。 除 非 容量 很 
小 ， 否 则 cache 不 使 用 全 相 联 映射 方式 ， 在 小 容量 cache 中 ， 比 较 器 的 开销 并 不 是 压倒 性 的 因 
素 ， 其 绝对 缺失 率 的 改进 才 是 最 明显 的 。 

在 虚拟 存储 器 系统 中 ， 页 表 是 一 个 独立 的 映射 表 ， 它 用 来 索引 存储 器 。 除 了 表 本 身 需 要 占 
用 存储 资源 外 ， 使 用 索引 表 还 会 引起 额外 的 存储 器 访问 。 选 择 全 相 联 映射 和 额外 的 页 表 有 以 下 
几 个 原因 : 

1) 全 相 联 有 其 优越 性 ， 因 为 缺失 的 代价 非常 高 。 

2) 全 相 联 允许 软件 使 用 复杂 的 替换 策略 以 降低 缺失 率 。 

3) 全 映射 很 容易 被 索引 ， 而 不 需要 额外 的 硬件 ， 也 不 需要 进行 查找 。 

因此 ， 虚 拟 存储 系统 通常 使 用 全 相 联 映射 。 

组 相 联 映射 通常 用 于 cache 和 TLB， 访问 时 包括 索引 和 在 小 组 内 查找 。 一 些 系统 使 用 直接 
映射 的 cache， 这 是 因为 访问 时 间 短 并 且 实 现 简 单 。 访 问 时 间 短 是 因为 不 需要 比较 就 能 找到 被 
请 求 的 块 。 这 样 的 设计 选择 取决 于 许多 细节 的 实现 ， 如 cache 是 否 集 成 在 片上 ， 实 现 cache 的 
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技术 以 及 cache 访问 时 间 对 处 理 器 时 钟 周期 的 重要 性 。 
5. 8.3 问题 3: 当 cache 缺失 时 替换 哪 一 块 


在 相 联 的 cache 中 发 生 缺 失 时 ， 我 们 必须 决定 替换 哪 一 块 . 如 果 是 全 相 联 cache， 所 有 的 块 
都 是 被 蔡 换 的 候选 者 。 如 果 cache 是 组 相 联 的 ， 我 们 必须 在 某 一 组 的 块 中 进行 选择 。 当 然 ， 直 
接 映射 的 cache 的 某 换 很 简单 ， 因 为 只 有 一 个 可 以 蔡 换 的 候选 者 。 

在 组 相 联 或 者 全 相 联 cache 中 ， 有 两 种 主要 的 蔡 换 策略 : 

e 随机 法 : 随机 选择 候选 块 ， 可 能 使 用 一 些 硬 件 协助 实现 。 例 如 ， 对 于 TLB 缺失 ，MIPS 

支持 随机 蔡 换 - 

e 最 近 最 少 使 用 算法 : 被 蔡 换 的 块 是 最 久 没 有 被 使 用 过 的 块 - 

实际 应 用 中 ， 在 相 联 度 不 低 (上 典型 的 是 两 路 到 四 路 ) 的 层次 结构 中 实现 LRU 的 代价 太 高 
了 ， 这 是 因为 跟踪 使 用 信息 的 代价 很 高 。 尽 管 对 于 四 路 组 相 联 ，LRU 通常 也 是 近似 实现 的 
例如 ， 超 踪 记 录 哪 一 对 块 是 最 近 最 少 使 用 的 (需要 使 用 1 位 )， 然后 跟踪 记录 每 对 块 中 哪 一 块 
又 是 最 近 最 少 使 用 的 (要 求 每 对 使 用 1 位 ) - 

对 于 更 高 的 相 联 度 的 层次 结构 ， 可 以 用 近似 的 LRU 算法 ， 也 可 以 采用 随机 蔡 换 策略 。 
在 cache 中 ， 蔡 换算 法 是 由 硬件 实现 的 ， 这 意味 着 算法 应 该 容易 实现 。 随 机 替换 算法 用 硬件 
很 容易 实现 ， 而 对 于 两 路 组 相 联 的 cache， 使 用 随机 蔡 换 算法 的 缺失 率 要 比 LRU 蔡 换 算法 的 
缺失 率 高 1. 1 倍 。 随 着 cache 变 得 更 大 ， 所 有 替换 策略 的 缺失 率 都 下 降 了 .绝对 差别 也 变 小 
了 - 事实 上 ， 有 时 候 ， 随 机 蔡 换算 法 的 性 能 比 用 硬件 简单 实现 的 近似 LRU 算法 的 性 能 还 
要 好 。 

在 虚拟 存储 器 中 ，LRU 的 一 些 形式 都 是 近似 的 ， 因 为 当 缺 失 代 价 很 大 时 ， 缺 失 率 即 使 只 
微小 的 降低 都 是 很 重要 的 。 通 常 提 供 引用 位 或 者 其 他 等 价 的 功能 使 操作 系统 更 方便 地 追踪 一 组 
最 近 最 少 使 用 的 项 。 由 于 缺失 的 代价 特别 高 ， 并 且 相 对 来 说 不 经 常 发 生 ， 主 要 用 软件 来 近似 这 
项 信息 的 做 法 是 可 行 的 。 


5.8.4 问题 4: 与 操作 如 何 处 理 


对 任何 存储 器 层次 结构 来 说 ， 一 个 关键 的 问题 是 如 何 处 理 写 操作 。 我 们 已 经 看 到 了 两 种 基 
本 选项 : 
e 写 直 达 : 信息 被 同时 写 到 cache 的 块 和 存储 器 层次 结构 较 低 层 的 块 中 (对 cache 来 说 是 
主 存 ) 。5. 3 节 中 的 cache 使 用 这 个 机 制 . 
e 写 回 : 信息 仅仅 写 到 cache 中 的 块 。 被 改写 的 块 只 有 在 它 被 蔡 换 时 才 写 回 到 存储 器 层 
次 结构 的 较 低层 中 。 虚 拟 存储 器 系统 通常 采用 写 回 策略 ， 原 因 在 5.7 节 中 讨论 过 。 
写 回 和 写 直 达 策 略 有 其 各 自 的 优点 ， 写 回 的 主要 优点 如 下 : 
e 处 理 器 可 以 以 cache 而 不 是 存储 器 能 接收 的 速度 写 单 个 的 字 。 
e 多 次 写 同一 块 中 的 字 只 需 对 存储 器 层次 结构 较 低层 进行 一 次 写 操作 。 
e 当 块 被 写 回 时 ， 由 于 写 一 整 块 ， 系 统 可 以 充分 利用 高 带宽 传输 。 
写 直 达 的 优点 如 下 : , 
e 缺失 比较 简单 ， 缺 失 代 价 也 较 小 ， 这 是 因为 不 需要 把 整个 块 写 回 到 较 低 层 存储 系统 中 - 
e 尽管 为 了 可 行 性 ， 写 直达 的 cache 需要 一 个 写 缓 冲 区 ， 然 而 写 直达 还 是 比 写 回 更 易于 
实现 。 
在 虚拟 存储 器 系统 中 ， 由 于 写 到 存储 器 层次 结构 的 较 低层 (磁盘 ) 的 延迟 很 大 ， 因 此 只 
有 写 回 策略 是 可 行 的 。 尽 管 允 许 存储 器 的 物理 、 丈 辑 宽度 更 宽 ， 并 对 DRAM 采用 突 发 模式 ， 然 
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而 处 理 器 产生 写 操作 的 速度 通常 还 是 超过 存储 系统 可 以 处 理 它们 的 速度 。 因 此 ， 现 在 最 低 一 级 
的 cache 通常 采用 写 回 策略 。 


苇 ] 重点 cache、TLB 和 虚拟 存储 器 可 能 一 开始 看 起 来 非常 不 同 ， 但 是 它们 都 基于 相同 的 两 
个 定位 原理 ， 并 且 可 以 通过 对 4 个 问题 的 各 自 解答 来 理解 。 
问题 1: 一 个 块 可 以 被 放 在 何 处 ? 
答 : 一 个 位 置 (直接 映射 ) ， 一 些 位 置 (组 相 联 ) ， 或 者 是 任何 位 置 (全 相 联 )。 
问题 2: 如 何 找到 一 个 块 ? 
答 : 有 4 种 方法 : 索引 (在 直接 映射 的 cache 中 )， 有 限 的 检索 (在 组 相 联 的 
cache 中 ) ， 全 部 检索 (在 全 相 联 的 cache 中 ) 和 专用 查找 表 (在 页 表 中 ) 。 
问题 3: 当 cache 缺失 时 替换 哪 一 块 ? 
答 : 通常 是 最 近 最 少 使 用 的 块 或 者 是 随机 选取 的 一 块 。 
问题 4: 写 操作 如 何 处 理 ? 
答 : 层次 结构 中 的 每 一 层 都 可 以 使 用 写 直 达 或 者 写 回 策 略 。 





5. 8.5 3C: 一 种 理解 存储 器 层次 结构 行为 的 直观 模型 


在 这 一 节 中 ， 我 们 来 看 一 个 模型 ， 通 过 它 能 够 很 好 地 洞察 存储 器 层次 结构 中 引起 缺失 的 
原因 以 及 层次 结构 的 变化 对 缺失 的 影响 。 我 们 从 cache 方面 来 解释 这 个 观点 ， 尽 管 这 个 观点 
对 其 他 层次 也 都 直接 适用 。 在 这 个 模型 中 ， 所 有 的 缺失 被 分 成 下 面 三 类 (3C 模型 (three Cs 
model) ) : 

e 强制 缺失 (compulsory miss) : 对 从 没有 在 cache 中 出 现 的 块 第 一 次 进行 访问 引起 的 缺 
失 。 也 称 为 冷 启动 缺失 (cold-start miss ) 。 

。 容量 缺失 (capacity miss) : 由 于 cache 容纳 不 了 一 个 程序 执行 所 需要 的 所 有 块 而 引起 的 
cache 缺失 ， 当 某 些 块 被 蔡 换 出 去 ， 随 后 再 被 调和 人 时， 将 发 生 容量 缺失 。 

e 冲突 缺失 (conflict miss) : 在 组 相 联 或 者 直接 映射 的 cache 中 ， 多 个 块 竞争 同一 个 组 时 
而 引起 的 cache 缺失 。 剖 突 缺 失 在 直接 映射 或 组 相 联 cache 中 存在 ， 而 在 同样 大 小 的 全 
相 联 cache 中 不 存在 。 这 种 cache 缺失 也 称 为 碰撞 缺失 (collision miss ) 。 


允 3C 模型 : 将 所 有 的 cache 缺失 都 归 为 三 种 类 型 的 cache 模型 ， 三 类 分 别 为 : 强制 缺失 、 容 
量 缺 失 和 冲突 缺失 。 因 其 三 类 名 称 的 英文 单词 首 字母 均 为 ec 而 得 名 。 

多 ”强制 缺失 : 也 称 为 冷 启动 缺 失 。 对 没有 在 cache 中 出 现 过 的 块 第 一 次 访问 时 产生 的 缺失 。 

容量 缺失 : 由 于 cache 在 全 相 联 时 都 不 可 能 容纳 所 有 请 求 的 块 而 导致 的 缺失 。 

马 ”冲突 缺失 : 也 称 为 碰撞 缺失 。 在 组 相 联 或 者 直接 映射 cache 中 ,很 多 块 为 了 竞争 同一 个 组 
导致 的 缺失 。 这 种 缺失 在 使 用 相同 大 小 的 全 相 联 cache 中 是 不 存在 的 。 


图 5-37 显示 了 缺失 率 是 如 何 按照 引起 的 原因 被 分 为 三 种 的 。 改 变 cache 设计 中 的 某 一 方面 
就 能 直接 影响 这 些 缺 失 的 原因 。 冲 突 缺 失 是 因为 争 用 同一 个 cache 块 而 引起 的 ， 因 此 提高 相 联 
度 就 可 以 减少 冲突 缺失 。 然 而 ， 提 高 相 联 度 会 延长 访问 时 间 ， 导 致 整个 性 能 的 降低 。 

容量 缺失 可 以 简单 地 通过 增 大 cache 容量 来 减少 ; 的确 ， 多 年 来 二 级 cache 的 容量 总 是 在 
不 断 地 增加 。 当 然 ， 在 增 大 cache 的 同时 ， 我 们 也 必须 注意 访问 时 间 的 增长 ， 这 将 导致 整体 性 
能 的 降低 。 因 此 ， 尽 管 一 级 cache 也 在 增 大 ， 但 是 增 大 地 非常 缓慢 。 


全 
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图 5-37 ”根据 缺失 原因 缺失 率 被 分 成 三 种 。 这 幅 图 显示 了 不 同 容量 cache 的 总 缺失 率 及 其 组 成 部 分 。 数 
据 与 图 5-36 出 自 同一 来 源 ， 都 是 由 SPEC CPU 2000 整 型 和 浮 点 基准 程序 测试 得 到 的 。 强 制 缺 
失 部 分 只 占 0.006% ,在 图 中 看 不 出 来 - 下 一 部 分 是 容量 缺失 ， 取 决 于 cache 的 容量 。 冲 突 缺 
失 部 分 既 取决 于 相 联 度 ， 又 取决 于 cache 的 容量 ， 图 中 给 出 了 相 联 度 从 一 路 到 八路 的 冲突 缺失 
率 。 在 每 种 情况 下 ， 当 相 联 度 从 下 一 个 更 高 度 变 化 到 标记 地 方 的 相 联 度 时 ， 标 记 地 方 对 应 缺失 
率 的 增加 . 例如 ， 标 有 两 路 的 部 分 说 明 当 cache 相 联 度 从 四 路 变化 到 两 路 时 缺失 增加 。 因 此 ， 
同样 大 小 的 直接 映射 cache 和 全 相 联 cache 的 缺失 率 的 差别 由 标记 着 八路 、 四 路 、 两 路 和 一 路 
的 各 部 分 之 和 给 出 。 八 路 和 四 路 之 间 变 化 太 小 ， 以 至 于 在 图 中 很 难看 出 

由 于 强制 缺失 是 对 块 的 第 一 次 访问 产生 的 ， 因 此 ， 对 cache 系统 来 说 ,减少 强制 缺失 次 数 

最 主要 的 方法 是 增加 块 的 大 小 。 由 于 程序 将 由 较 少 的 cache 块 组 成 ， 因 此 这 就 减少 了 对 程序 每 

一 块 都 要 访问 一 次 的 情况 下 的 总 的 访问 次 数 。 如 前 所 述 ， 块 容量 增加 太 多 可 能 对 性 能 产生 负面 

影响 ， 因 为 缺失 代价 会 增长 。 

将 缺失 分 成 3C 是 个 有 用 的 定性 模型 。 在 实际 cache 设计 中 ,许多 设计 的 选择 是 相互 影响 

的 ， 改 变 cache 的 一 个 特征 通常 会 影响 另 一 些 缺失 率 的 组 成 部 分 。 尽 管 存在 这 些 缺 点 ，35C 模型 

对 于 观察 cache 设计 的 性 能 来 说 仍 是 一 种 有 效 的 方法 。 


上 加! 重点 存储 器 层次 结构 设计 所 面临 的 挑战 在 于 : 任何 一 个 改进 缺失 率 的 设计 同时 也 可 能 对 
整体 性 能 产生 负面 的 影响 ， 如 图 $-38 所 示 。 正 面 与 负面 作用 的 结合 就 使 得 存储 器 层次 结 
构 的 设计 令 人 关注 。 


设计 变化 对 缺失 幸 的 影响 可 能 对 性 能 产生 的 负面 影响 





































增加 cache 容量 减少 了 容量 缺失 可 能 增加 访问 时 间 
提高 相 联 度 | 由 于 减少 了 冲突 缺失 ， 因 此 降低 了 缺失 率 可 能 增加 访问 时 间 
| 和 x v 
由 于 空间 局 部 性 ， 因 此 对 很 宽 范 围 内 变化 的 块 大 小 ， 增加 缺失 代价 ， 块 太 大 还 会 
| 放 浊 约 的 和 和 a 增加 缺失 率 
5-38 存储 器 层次 结构 设计 面临 的 挑战 
加 小 测验 


下 面 哪些 表述 (如 果 有 ) 是 正确 的 ? 
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1. 没有 减少 强制 缺失 的 方法 。 
2. 全 相 联 cache 中 没有 冲突 缺失 。 
3. 在 减少 缺失 方面 ， 相 联 度 比 容量 更 为 重要 。 


5.9 使 用 有 限 状态 机 来 控制 简单 的 cache 


就 像 我 们 在 第 4 章 中 对 单 周 期 、 流 水 线 数据 通路 实现 控制 一 样 ， 现 在 我 们 可 以 实现 对 
cache 的 控制 。 本 节 从 定义 一 个 简单 的 cache 开始 ， 随 后 对 有 限 状 态 机 (finite- state machine， 
FSM) 进行 介绍 。 最 后 介绍 了 这 个 简单 cache 的 控制 器 的 有 限 状态 机 。5. 12 节 用 一 种 新 的 硬件 
描述 语言 更 深入 地 介绍 了 cache 和 控制 器 。 


5.9.1 一 个 简单 的 cache 


我 们 将 为 一 个 简单 的 cache 设计 控制 器 。cache 的 关键 特征 如 下 : 
直接 映射 的 cache。 
写 回 机 制 ， 采 用 写 分 配 策略 。 
块 大 小 为 4 个 字 (16 字 节 或 者 128 位 ) 。 
cache 大 小 为 16KiB ， 因 此 它 能 容纳 1 024 个 块 。 
' e 32 字 节 地 址 。 
。 cache 中 每 个 块 包 含 一 个 有 效 位 和 写 入 位 。 
根据 5.3 节 ， 我 们 可 以 计算 出 cache 的 地 址 域 : 
。 cache 索引 位 为 10 位。 
。 块 偏 移 为 4 位 。 
e 标记 位 为 32 -(10+4) =18 位 。 
处 理 器 和 cache 之 间 的 信和 号 为 : 
。 1 位 读 / 写 信号 。 
e 1 位 有 效 信和 号， 指示 是 否 有 一 个 cache 操作 。 
。 32 位 地 址 。 
e 32 位 数据 (从 处 理 器 到 cache) 。 


32 位 数据 (从 cache 到 处 理 器 ) 。 
1 位 准备 信号 ， 指 示 cache 操作 完成 。 
存储 器 和 cache 之 间 的 接口 与 处 理 器 和 cache 之 间 一 样 有 相同 的 域 ， 除 了 数据 域 这 里 是 128 
位 宽 。 如 今 ， 一 般 的 微 处 理 器 都 有 额外 的 存储 器 位 宽 ， 在 处 理 器 中 可 以 处 理 32 位 或 64 位 的 
字 ， 而 DRAM 控制 器 通常 是 128 位 。 为 了 简化 设计 ， 可 以 使 cache 块 匹配 DRAM 的 位 宽 。 下 面 
是 一 些 信和 号 : 
e 1 位 读 / 写 信号 。 
e 1 位 有 效 信号 ， 指 示 是 否 有 一 个 存储 器 操作 。 
e 32 位 地 址 。 
e 128 位 数据 (从 cache 到 存储 器 ) 。 
e 128 位 数据 (从 存储 器 到 cache) 。 
。 1 位 准备 信和 号， 指示 存储 器 操作 完成 。 
请 注意 ， 到 存储 器 的 接口 并 没有 固定 的 周期 数 。 我 们 假设 当 存 储 器 读 或 写 完成 后 ， 存 储 器 
控制 器 通过 准备 信号 来 通知 cache。 
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在 介绍 cache 控制 器 之 前 ， 我 们 需要 回顾 一 下 有 限 状 态 机 ， 它 支持 控制 一 个 花费 多 个 时 钟 
周期 的 操作 。 


5. 9.2 ”有限 状态 机 


为 了 给 单 周 期 的 数据 通路 设计 控制 单元 ， 我 们 使 用 一 组 真 值 表 ， 根 据 指令 的 分 类 来 指定 控 
制 信号 的 设置 。 对 于 cache， 由 于 操作 可 以 是 一 系列 的 步骤 ， 因 此 控制 变 得 更 加 复杂 。 对 cache 
的 控制 既 要 指定 在 任何 步骤 中 信号 的 设置 ， 又 要 依次 指出 下 一 步 的 步骤 。 

最 常见 的 多 步 控 制 方法 基于 有 限 状态 机 (finite-state machine) ， 通 常 以 图 形 化 表示 。 有 限 
状态 机 由 一 组 状态 以 及 状态 改变 的 方向 组 成 。 方 向 由 下 一 状态 函数 (next-state function) 来 定 
义 ， 它 将 当前 的 状态 和 输入 映射 到 一 个 新 的 状态 。 当 我 们 使 用 有 限 状 态 机 控制 时 ， 每 个 状态 还 
要 在 当时 的 状态 下 指出 一 组 有 效 的 输出 。 有 限 状态 机 的 实现 通常 假定 那些 没有 明确 置 为 有 效 的 
输出 是 无 效 的 。 类 似 地 ， 对 数据 通路 的 正确 执行 需要 将 没有 明确 设置 为 有 效 的 信号 设置 成 无 效 
状态 ， 而 不 是 对 信和 号 置 位 采取 不 关心 的 态度 。 


定 ”有限 状态 机 : 由 一 组 输入 和 输出 ， 以 及 下 一 状态 函数 和 输出 函数 组 成 的 时 序 逻 辑 函 数 。 下 
一 状态 函数 将 当前 状态 和 当前 和 输入 映射 为 一 个 新 的 状态 ， 输 出 函数 将 当前 状态 和 当前 输入 
映射 为 一 组 确定 的 输出 。 

”下 一 状态 函数 : 根据 当前 状态 及 当前 输入 来 确定 有 限 状 态 机 下 一 状态 的 组 合 函 数 。 


多 路 选择 控制 略微 有 一 些 不 同 ， 它 们 从 输入 (0 或 1) 中 选择 一 个 。 因 此 ， 在 有 限 状态 机 
中 ,我 们 总 是 指定 我 们 关心 的 所 有 多 路 选择 控制 的 设置 。 当 我 们 使 用 逻辑 实现 有 限 状 态 机 时 ， 
设置 为 0 的 控制 可 能 就 是 默认 值 ， 因 此 不 需要 任何 门 电路 。 一 个 简单 的 有 限 状 态 机 的 例子 在 附 
录 B 中 给 出 ， 如 果 不 熟 悉 有 限 状 态 机 的 概念 ， 在 继续 学 习 之 前 ， 读 者 可 能 需要 花 一 些 时间 来 研 
究 附 录 B。 

一 个 有 限 状 态 机 的 实现 包括 : 一 个 保持 当前 状态 的 临时 寄存 器 和 一 个 组 合 逻 辑 ， 组 合 逻 辑 
用 来 决定 有 效 的 数据 通路 信号 和 下 一 状态 。 图 5-39 显示 了 可 能 的 实现 效果 图 。 附 录 D 详细 介 
绍 了 使 用 这 个 结构 如 何 实现 有 限 状 态 机 。 在 B.3 节 中 ,一 个 有 限 状态 机 的 组 合 逻 辑 由 ROM 
(read-only memory ， 只 读 存 储 器 ) 或 PLA (programmable logic array， 可 编程 逻辑 阵列 ) 来 实现 。 
(附录 B 中 对 这 些 逻 辑 单元 也 进行 了 描述 。) 


加 精 解 注意 ， 这 是 一 个 阻塞 式 cache， 因 此 处 理 器 必须 等 到 cache 处 理 完 请 求 之 后 才能 继 
续 执行 。5. 12 节 中 将 会 讲述 另外 一 种 称 为 非 阻塞 式 cache 的 结构 。 

图) 精 解 本 书 中 的 有 限 状态 机 的 类 型 被 称 作 Moore 型 有 限 状 态 机 ， 以 Edward Moore 来 命名 。 
它 的 标识 特征 是 输出 仅仅 取决 于 当前 的 状态 。 对 于 Moore 型 有 限 状态 机 ， 标 记 着 组 合 控制 
逻辑 的 座 辑 单元 可 以 被 分 成 两 部 分 : 一 部 分 包括 控制 输出 ， 并 且 仅 有 状态 输入 ; 另 一 部 分 
仅 包含 下 一 状态 输出 。 

另 一 种 状态 机 是 Mealy 型 有 限 状 态 机 ， 以 George Mealy 命名 。Mealy 型 有 限 状 态 机 的 
输出 取决 于 输入 和 当前 的 状态 。Moore 型 有 限 状 态 机 潜在 的 实现 优势 在 于 速度 和 控制 单元 
的 规模 。 由 于 在 时 钟 周期 开始 就 需要 控制 输出 ， 而 该 输出 与 输入 无 关 ， 仅仅 取决 于 当前 的 
状态 ， 因 此 有 助 于 速度 的 提升 。 在 附录 B 中 ， 用 次 辑 门 就 可 以 实现 这 种 有 限 状态 机 ， 因 
而 可 以 很 明显 地 看 出 它 在 规模 上 的 优势 。Moore 型 有 限 状 态 机 潜在 的 缺点 是 它 可 能 需要 额 
外 的 状态 。 例 如 ， 在 两 个 状态 序列 中 仅 有 一 个 状态 不 同 的 情况 下 ，Mealy 状态 机 会 通过 使 
用 输出 依赖 输入 的 方法 将 状态 统一 。 
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图 5-39 
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典型 的 有 限 状 态 机 控制 器 由 一 个 组 合 逻 辑 和 一 个 保存 当前 状态 的 寄存 器 来 实现 。 组 合 逻辑 的 输 
出 是 下 一 个 状态 号 以 及 当前 状态 的 有 效 控制 信号 。 组 合 逻辑 的 输入 是 当前 的 状态 以 及 用 来 决定 
下 一 状态 的 一 些 输入 。 注 意 到 ， 在 本 章 所 使 用 的 有 限 状 态 机 中 ， 输 出 仅 由 当前 状态 来 决定 ， 而 
与 输入 无 关 。 对 此 ， 精 解 更 详细 地 进行 了 解释 


一 个 简单 的 cache 控制 器 的 有 限 状态 机 


图 5-40 是 简单 cache 控制 器 的 4 个 状态 : 


空闲 : 这 个 状态 等 待 从 处 理 器 发 出 有 效 的 读 / 写 请 求 ， 使 得 有 限 状态 机 转移 到 标记 比较 
的 状态 。 

标志 比较 : 如 名 称 所 示 ， 这 个 状态 主要 检测 该 读 / 写 请 求 是 命中 还 是 缺失 。 地 址 的 索引 
部 分 用 来 选择 比较 用 的 标记 。 如 果 它 的 有 效 位 和 地 址 的 标记 部 分 与 标记 位 相 匹 配 ， 则 
命中 。 这 时 ， 或 者 从 选中 的 字 中 读 出 数据 ， 或 者 将 数据 写 人 选中 的 字 ， 随 后 cache 准备 信 
号 被 置 位 。 如 果 是 写 操作 ， 还 要 将 脏 位 设置 为 1。 注意 ， 如 果 是 写 命 中 ， 还 要 设置 有 效 位 
和 标记 域 ;这些 设置 看 起 来 并 不 需要 ， 却 还 是 要 设置 ， 因 为 标记 使 用 单独 的 存储 器 ， 因 
此 ， 改 变 写 人 位 时 ， 我 们 也 需要 改变 有 效 位 和 标记 域 。 如 果 请 求 命中 并 且 cache 块 有 效 ， 
有 限 状 态 机 返回 到 空闲 状态 。 发 生 一 次 缺失 时 首先 要 更 新 cache 标记 ， 随 后 ， 如 果 这 个 位 
置 的 块 的 写 入 位 为 1， 则 转 入 写 回 状态 ; 如 果 写 入 位 为 0， 则 进入 分 配 状态 。 

写 回 : 这 个 状态 根据 标记 和 cache 索引 组 合 的 地 址 ， 将 128 位 的 块 写 回 存储 器 。 我 们 继 
续 停 留 在 该 状态 等 待 存储 器 返回 准备 信号 。 当 存储 器 写 回 完成 时 ， 有 限 状 态 机 进入 分 
配 状态 。 

分 配 : 新 的 块 从 存储 器 中 取 回 。 我 们 继续 停留 在 该 状态 等 待 从 存储 器 返回 准备 信号 。 
当 存 储 器 读 操作 完成 时 ， 有 限 状 态 机 转 入 标记 比较 状态 。 尽 管 我 们 可 以 转移 到 一 个 新 
的 状态 来 完成 操作 ， 而 不 再 使 用 标记 比较 状态 ， 但 是 这 个 操作 中 有 很 多 重复 ， 包 括 当 
访问 是 写 操作 时 更 新 块 中 恰当 的 字 。 
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图 5-40 简单 控制 器 的 4 个 状态 


这 个 简单 的 模型 可 以 很 方便 地 扩展 到 多 个 状态 以 改进 性 能 。 例 如 ， 标 记 比 较 状态 在 一 个 单 
独 的 时 钟 周期 里 既 要 比较 ， 又 要 读 / 写 cache 数据 。 通 常 ， 比 较 和 cache 访问 被 放 在 分 离 的 状态 
中 ， 以 改进 时 钟 周期 。 另 一 个 优化 是 增加 一 个 写 缓冲 ， 这 样 我 们 就 可 以 先 保存 脏 块 ， 然 后 再 读 
出 新 的 块 。 这 样 ， 当 一 个 脏 块 缺失 时 ， 处 理 器 就 不 用 等 待 两 次 存储 器 访问 。 随 后 ，cache 将 从 
写 缓 冲 器 中 将 脏 块 写 回 ， 同 时 处 理 器 正在 处 理 被 请 求 的 数据 。 

在 5. 12 节 将 对 有 限 状 态 机 进行 更 深入 的 研究 ， 用 硬件 描述 语言 描述 了 整个 控制 器 ， 并 显 
示 了 这 个 简单 cache 的 方 框图 。 


5. 10 ”并 行 与 存储 器 层次 结构 : cache 一 致 性 


多 核 多 处 理 器 意味 着 在 单 芯 片上 有 多 个 处 理 器 ， 这 些 处 理 器 可 能 会 共享 一 个 公共 的 物理 地 
址 空间 。cache 共享 数据 带 来 了 一 个 新 的 问题 ， 由 于 两 个 不 同 的 处 理 器 所 保存 的 存储 器 视图 是 
通过 各 自 的 cache 得 到 的 ， 如 果 没 有 其 他 的 防范 措施 ， 两 个 处 理 器 可 能 分 别 得 到 两 个 不 同 的 
值 。 图 5-41 解释 了 这 个 问题 ， 并 且说 明了 为 什么 两 个 不 同 的 处 理 器 对 存储 器 相同 位 置 进行 操 
作 会 得 到 不 同 的 值 。 这 个 问题 通常 称 为 cache 一 致 性 问题 。 


CPU A 读 X 
CPUB 读 X 
CPU A 向 X 写 人 1 


图 5-41 cache 一 致 性 问题 : 两 个 处 理 器 (A 和 B) 对 同一 个 存储 器 位 置 X 进行 读 写 操作 。 我 们 假设 最 初 
两 个 cache 中 都 不 包含 该 变量 并 且 X 的 值 为 0。 假 设 是 写 直 达 cache; 如 果 是 写 回 cache 则 会 带 
来 额外 的 更 加 复杂 的 情况 。 当 XX 的 值 被 A 改写 后 ，A 的 cache 和 存储 器 中 的 副本 都 做 了 更 新 ， 
但 是 B 的 cache 没有 ， 如 果 B 读 X， 得 到 的 值 为 0 
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一 般 情况 下 ， 如 果 在 一 个 存储 器 系统 中 读 取 任 何 一 个 数据 项 的 返回 结果 总 是 最 近 写 人 的 
值 ， 那 么 可 以 认为 该 存储 器 具有 一 致 性 。 这 个 定义 尽管 看 起 来 是 正确 的 ， 但 仍 很 模糊 而 且 过 于 
简单 ; 实际 情况 复杂 得 多 。 这 个 简单 的 定义 包括 了 存储 器 系统 行为 的 两 个 不 同方 面 ， 它 们 对 于 
编写 正确 的 共享 存储 程序 是 至 关 重 要 的 。 第 一 个 方面 称 为 一 致 性 〈coherence) ， 它 定义 了 读 操 
作 可 以 返回 什么 样 的 数值 。 第 二 个 方面 称 为 连贯 性 (consistency) ， 它 定义 了 写 和 人 的 数据 什么 时 
候 才 能 被 读 操作 返回 。 

首先 来 看 一 致 性 。 如 果 一 个 存储 系统 满足 如 下 条 件 ， 那么 认为 该 存储 系统 是 一 致 的 : 

1) 处 理 器 了 对 位 置 X 的 写 操作 后 面 紧 跟着 处 理 器 P 对 X 的 读 操作 ,并且 在 这 次 读 操作 和 
写 操作 之 间 没 有 其 他 处 理 器 对 X 进行 写 操作 ， 这 时 读 操作 总 是 返回 了 写 和 人 的 数值 。 因 此 ,在 
图 5-41 中 ， 如 果 CFU A 在 时 间 3 之 后 读 X， 它 将 得 到 数值 1。 

2) 在 其 他 处 理 器 对 X 的 写 操作 后 ， 处 理 器 P 对 X 执行 读 操 作 ， 这 两 个 操作 之 间 有 足够 的 
间隔 并 且 没 有 其 他 处 理 器 对 X 进行 写 操作 ， 这 时 ， 读 操作 返回 的 是 写 入 的 数值 。 因 此 ， 在 图 5- 
41 中 ,我 们 需要 一 个 机 制 ， 以 便 在 时 间 3，CPU A 向 存储 器 地 址 X 写 人 数据 1 之 后 ，CPU B 的 
cache 中 的 数值 0 被 数值 1 所 替换 。 

3) 对 同一 个 地 址 的 写 操作 是 串 行 执行 的 〈serialized) ;也 就 是 说 ， 任 何 两 个 处 理 器 对 同一 
个 地 址 的 两 个 写 操作 在 所 有 处 理 器 看 来 都 有 相同 的 顺序 。 例 如 ， 如 果 在 时 间 3 之 后 ，CPU B 又 
向 存储 器 地 址 X 中 写 和 信 2， 那么 处 理 器 绝 不 会 从 该 地 址 中 先 读 出 2 再 读 出 1。 

第 一 个 性 质保 证 了 程序 的 顺序 一 一 即使 在 单 处 理 器 中 也 要 保证 这 个 性 质 。 第 二 个 性 质 定义 
了 存储 器 的 一 致 性 意味 着 什么 ; 如 果 一 个 处 理 器 总 是 读 到 旧 的 数值 ， 我 们 就 认为 这 个 存储 器 是 
非 一 致 性 的 。 

写 操作 串 行 化 的 要 求 更 加 细致 ， 但 也 同等 重要 。 假 如 我 们 没有 将 写 操作 串 行 化 ， 处 理 器 
P1 写 入 地 址 X 之 后 ， 紧 跟着 处 理 器 P2 也 会 写 人 地 址 X。 写 操作 串 行 化 保证 了 每 个 处 理 器 都 能 
在 某 个 时 间 看 到 P2 写 人 的 结果 。 如 果 没 有 将 写 操作 串 行 化 ， 就 会 出 现 一 些 处 理 器 先 看 到 P2 写 
人 的 结果 再 看 到 Pl 写 人 的 结果 ， 从 而 可 能 保留 了 P1 写 人 的 数值 。 避 免 这 种 情况 最 简单 的 方法 
就 是 保证 对 同一 个 地 址 的 写 操作 在 所 有 处 理 器 看 来 都 具有 相同 的 顺序 ， 这 个 性 质 称 为 写 串 行 化 


(write serialization ) 。 


5. 10.1 实现 一 致 性 的 基本 方案 
在 支持 cache 一 致 性 的 多 处 理 器 系统 中 ，cache 提供 共享 数据 的 迁移 (migration) 和 复制 


(replication ) 。 
。 迁移 : 数据 项 可 以 移 人 本 地 cache 并 以 透明 的 方式 使 用 。 迁 移 不 但 减少 了 访问 远程 共 
享 数 据 项 的 延迟 ， 而 且 减 少 了 对 共享 存储 器 带宽 的 需求 。 
。 复制 : 当 共 享 数据 被 同时 读 取 时 ，cache 在 本 地 对 数据 项 做 了 备份 。 复 制 减少 了 访问 延 
迟 和 读 取 共 享 数据 时 的 竞争 现象 。 

对 这 种 迁移 和 复制 的 支持 对 于 访问 共享 数据 的 性 能 来 说 是 至 关 重要 的 ， 因 此 许多 多 处 理 器 
引入 硬件 协议 来 维护 cache 一 致 性 。 这 个 用 于 维护 多 个 处 理 器 一 致 性 的 协议 称 为 cache 一 致 性 
协议 (cache coherence protocol ) 。 实 现 cache 一 致 性 协议 的 关键 在 于 跟踪 所 有 共享 数据 块 的 
状态 。 

最 常用 的 cache 一 致 性 协议 是 监听 (snooping) 协议 。 每 个 含有 物理 存储 器 中 数据 块 副本 
的 cache 还 要 保留 该 数据 块 共享 状态 的 副本 ， 但 是 并 不 集中 地 保存 状态 。cache 可 以 通过 一 些 广 
播 媒 介 〈 总 线 或 者 网 络 ) 访问 ， 所 有 的 cache 控制 器 对 媒介 进行 监视 或 者 监听 ， 来 确定 它们 是 
否 含有 总 线 或 者 交换 机 上 请 求 的 数据 块 副本 。 
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在 后 面 章节 我 们 将 介绍 用 共享 总 线 实现 基于 监听 的 cache 一 致 性 方法 ,任何 可 以 向 所 有 处 
理 器 广播 cache 缺失 的 通信 媒介 都 可 以 用 来 实现 基于 监听 的 一 致 性 机 制 。 这 种 向 所 有 cache 广 
播 的 方法 使 得 监听 协议 的 实现 变 得 简单 ， 但 是 也 限制 了 其 可 扩展 性 。 


5. 10.2 监听 协议 


实现 一 致 性 的 一 种 方法 是 : 在 处 理 器 写 数 据 之 前 ， 保 证 该 处 理 器 能 独占 地 访问 该 数据 项 。 
这 种 协议 称 为 写 无 效 协议 (write invalidate protocol) ， 因 为 它 在 执行 写 操作 的 时 候 令 其 他 副本 无 
效 。 独 占 访问 确保 了 写 操作 执行 时 不 存在 其 他 可 读 或 可 写 的 数据 项 副本 : cache 中 该 数据 项 的 
其 他 所 有 副本 都 是 无 效 的 。 

图 5-42 给 出 了 一 个 基于 监听 总 线 的 写 无 效 协 议 的 例子 ， 其 中 cache 使 用 写 回 机 制 。 为 了 
说 明 这 个 协议 如 何 保 证 一 致 性 ， 我 们 令 写 操作 后 面 紧 跟着 其 他 处 理 器 执行 读 操作 的 情况 : 
由 于 写 操作 需要 独占 访问 ， 执 行 读 操作 的 处 理 器 中 保存 的 任何 副本 就 要 被 置 无 效 (协议 因 
此 得 名 ) 。 因 此 ， 当 执行 读 操作 时 ， 在 cache 中 发 生 缺 失 ，cache 需要 取 回 新 的 数据 副本 。 对 
于 写 操作 ， 我 们 要 求 执行 写 操作 的 处 理 器 可 以 独占 访问 ,以 防止 其 他 处 理 器 同时 执行 写 操 
作 。 如 果 两 个 处 理 器 试图 同时 对 同一 个 数据 项 进行 写 操 作 ， 它 们 中 的 一 个 会 在 竞争 中 获胜 ， 
这 就 使 得 另 一 个 处 理 器 的 副本 被 置 为 无 效 。 竞 争 失 败 的 处 理 器 要 完成 写 操作 ， 就 必须 取得 
新 的 数据 副本 ， 这 个 副本 中 已 经 包含 了 更 新 后 的 数据 。 因 此 ， 这 个 协议 也 强制 了 写 操 作 的 
串 行 化 。 


调动 作 |。 二 动人 ETITE 


| 
i A 读 X ”| xX 在 cache 中 缺失 


CPU B 读 X X 在 cache 中 缺失 
CPU A 向 X 写 1 


ET 


图 5-42 ”以 对 单个 cache 块 X 读 写 的 过 程 为 例 〈 采 用 写 回 机 制 ) ， 说 明 监 听 总 线 上 执行 无 效 协议 的 过 
程 。 我 们 假设 最 初 两 个 cache 中 都 没有 X， 而 在 存储 器 中 X 的 值 为 0。CPU 和 X 的 存储 器 内 容 
是 处 理 器 和 总 线 动作 都 完成 后 的 数值 。 空 格 表示 没有 动作 或 者 没有 存放 副本 。 当 B 发 生 第 二 
次 缺失 时 ，CPU A 回应 ， 同 时 取消 来 自 存储 器 的 响应 。 随 后 ，B 的 cache 和 X 的 存储 器 内 容 
都 得 到 更 新 。 这 种 当 块 共享 时 对 存储 器 进行 更 新 的 方法 简化 了 协议 , 但 是 可 能 只 有 当 块 被 蔡 
换 时 才 有 跟踪 所 有 权 并 强制 写 回 。 这 就 需要 引入 一 个 被 称 为 “所 有 者 ” (owner) 的 额外 状 
态 ， 它 表明 块 可 以 被 共享 ， 但 是 当 块 被 改变 或 是 替换 时 ， 由 所 有 者 处 理 器 负责 更 新 其 他 处 理 
器 和 存储 器 


团 硬件 /软件 接口 ”一 种 观点 是 : 块 大 小 对 cache 一 致 性 起 着 重要 作用 。 以 对 一 个 cache 监听 
为 例 ，cache 的 块 大 小 为 8 个 字 ， 两 个 处 理 器 可 以 对 块 中 的 一 个 字 进 行 读 / 写 操作 。 多 数 协 
议会 在 两 个 处 理 器 之 间 交 换 整 个 块 ， 因 此 增加 了 所 需要 的 一 致 性 带宽 。 

大 的 块 同样 会 引起 所 谓 的 假 共享 (false sharing) : 当 两 个 不 相关 的 共享 变量 存在 相同 
的 cache 块 中 时 ， 尽 管 每 个 处 理 器 访问 的 是 不 同 的 变量 ， 但 是 在 处 理 器 之 间 还 是 将 整个 块 
进行 交换 。 因 此 ， 程 序 员 和 编译 器 需要 谨慎 放置 数据 以 避免 发 生 假 共享 。 


2 假 共享 : 当 两 个 不 相关 的 共享 变量 放 在 相同 的 cache 块 中 时 ,尽管 每 个 处 理 器 访问 的 是 不 
同 的 变量 ， 但 是 在 处 理 器 之 间 还 是 将 整个 块 进行 交换 。 
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团 | 精 解 ” 尽 管 前 面 的 三 个 属性 已 经 能 充分 保证 一 致 性 ， 但 是 何 时 能 看 见 写 的 值 ， 这 个 问题 同样 
很 重要 。 让 我 们 来 看 看 为 什么 。 注 意 到 在 图 5-41 中 ， 我们 不 能 要 求 对 X 的 读 操作 立刻 能 看 
见 其 他 处 理 器 对 X 执行 写 操作 的 值 。 例 如 ， 假 设 一 个 处 理 器 对 X 的 写 操作 稍稍 先 于 另 一 个 
处 理 器 对 X 的 读 操作 ， 这 样 就 不 能 保证 读 操作 返回 的 数值 是 被 写 的 数据 ， 因 为 在 那 一 刻 ， 被 
写 的 数据 可 能 甚至 还 没有 离开 处 理 器 。 连 贯 性 模型 详细 定义 了 写 数据 何 时 能 被 读 操 作 看 见 。 

我 们 做 下 面 两 个 假设 : 第 一 ， 直 到 所 有 处 理 器 看 见 写 操作 的 结果 ， 这 个 写 操作 才能 完 
成 (没有 完成 时 可 以 允许 下 一 个 写 操作 发 生 ) ; 第 二 ， 处 理 器 不 能 改变 与 存储 器 访问 相关 
的 写 操作 的 次 序 。 这 两 个 条 件 意味 着 : 如 果 处 理 器 在 写 位 置 X 之 后 再 写 位 置 Y， 那么 ， 任 
何 处 理 器 在 看 到 Y 的 新 值 时 也 必须 看 见 X 的 新 值 。 这 些 限制 条 件 允许 处 理 器 对 读 操作 可 
以 重新 排序 ， 但 是 强制 处 理 器 以 程序 执行 的 顺序 完成 写 操作 。 

加 | 精 解 由 于 输入 操作 可 在 不 改变 cache 内 容 的 情况 下 改变 存储 器 内 容 ， 另 外 ， 在 写 回 
cache 中 ， 输 出 操作 需要 最 新 的 存储 器 内 容 ， 因 此 在 单 处 理 器 系统 中 也 存在 /0 和 cache 
之 间 一 致 性 问题 ， 这 与 多 处 理 器 间 cache 一 致 性 问题 相同 。cache 一 致 性 问题 对 于 多 处 理 
器 和 1/O ( 见 第 6 章 ) 来 说 ， 尽 管 原因 相同 ， 但 是 却 有 不 同 的 特性 ， 从 而 影响 了 解决 方 
法 。 与 几乎 很 少 拥有 多 个 数据 副本 的 1/O 不 同一 一 只 要 可 能 有 就 应 该 避免 一 一 程序 运行 在 
多 个 处 理 器 上 时 ，cache 中 通常 都 有 相同 数据 的 副本 。 

苇 ] 精 解 ” 除 了 分 布地 保存 共享 块 状态 的 监听 式 cache 一 致 性 协议 ， 基 于 目录 的 cache 一 致 性 
协议 将 物理 存储 器 的 共享 块 的 状态 存放 在 一 个 地 点 ， 称 之 为 目录 (directory)。 尽 管 基于 
目录 的 一 致 性 比 监听 式 一 致 性 的 实现 开销 略 高 一 些 ， 但 是 这 种 方法 可 以 减少 cache 之 间 的 
通信 ， 并 且 因此 可 以 扩展 更 多 的 处 理 器 。 














8 5. 11 并行 与 存储 器 层次 结构 : 元 余 廉 价 磁盘 阵列 


本 节 内 容 在 网 站 上 ， 讲 述 了 如 何 采用 许多 块 磁 盘 并 行 工作 来 提高 吞吐 率 ， 该 技术 是 元 余 廉 
价 磁 盘 阵 列 (Redundant Arrays of Inexpensive Disks, RAID) 产生 的 灵感 所 在 。 然 而 ，RAID 技术 
真正 流行 的 原因 在 于 其 通过 采用 适当 数量 的 元 余 磁 盘 来 提高 可 靠 性 。 本 节 讲 述 了 不 同 RAID 级 
别 在 性 能 、 开 销 和 可 靠 性 等 方面 的 差别 。 


辐 5.12 高 级 内 容 : 实现 cache 控制 器 


本 节 内 容 在 网 站 中 ， 介 绍 了 如 何 实 现 cache 的 控制 ， 就 像 我 们 在 第 4 章 中 实现 对 单 周 期 、 
流水 的 数据 通路 的 控制 一 样 。 这 一 节 开始 介绍 了 有 限 状态 机 以 及 在 简单 的 数据 cache 中 实现 
cache 控制 器 ， 包 括 用 硬件 描述 语言 来 描述 cache 控制 器 。 随 后 详细 介绍 了 一 个 cache 一 致 性 协 
议 的 实例 以 及 实现 的 难点 。 


5. 13 实例: ARM Cortex-A8 和 Intel Core i7 的 存储 器 层次 结构 


本 节 将 讲述 第 4 章 中 提 到 的 两 种 微 处 理 器 (ARM Cortex- A8 和 Intel Core 让) 的 存储 器 层 
次 。 本 节 内 容 基 于 《计算 机 体系 结构 : 量化 研究 方法 》 第 5 版 的 2.6 节 。 

图 5-43 总 结 了 这 两 种 处 理 器 的 地 址 尺寸 和 TLB。 注 意 ，A8 中 包含 了 2 个 具有 32 位 虚拟 地 
址 空间 和 物理 地 址 空间 的 TLB。 而 Core i7 中 包含 了 3 个 具有 48 位 虚拟 地 址 空间 和 44 位 物理 地 
址 空间 的 TLB。 虽 然 Core 这 中 的 64 位 寄存 器 能 够 支持 更 大 的 虚拟 地 址 空间 ， 但 是 没有 软件 需 
要 如 此 大 的 空间 ，48 位 的 虚拟 地 址 不 但 缩小 了 页 表 的 踪迹 (footprint) ， 也 简化 了 TLB 的 硬件 。 
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ARNMI Cortex-A8 Intel Core 17 
2 位 


虚拟 地 址 | 3 


物理 地 址 | 32 位 44 位 
页 表 大 小 | 可 变 : 4，16，64KiB，1，16MiB 可 变 : 4KiB，2/4MiB 


TLB 组织 | 1 个 指令 TLB 和 1 个 数据 TLB 每 核 1 个 指令 TLB 和 1 个 数据 TLB 
两 个 TLB 均 为 全 相 联 ，32 个 人 口 ，| ”两 个 Ll TLB 均 为 4 路 组 相 联 ， 
轮转 替换 策略 LRU 替换 策略 
硬件 处 理 TLB 缺失 L1 I-TLB 对 于 小 尺寸 页 面 有 128 个 人 口 ， 每 线程 对 于 大 页 面 有 7 个 和 人口 
LI D-TLB 对 于 小 页 面 有 64 个 人 口 ， 大 页 面 有 32 个 人 口 
12 TLB 4 路 组 相 联 ，LRU 替换 策略 
L2 TLB 有 512 个 入 口 
硬件 处 理 TLB 缺失 


图 5-43 ARM Cortex- A8 和 Itel Core 17 920 的 地 址 转换 和 TLB 硬件 。 两 个 处 理 器 均 支 持 用 于 操作 系统 
或 映射 为 帧 缓冲 器 的 大 页 面 。 大 页 面 技术 避免 了 将 一 个 对 象 映射 到 多 个 人 口 的 情况 

图 5-44 给 出 了 它们 的 cache。 需 要 注意 的 是 A8 只 有 1 个 核 ， 而 Core 这 中 有 4 个 核 。 两 个 
处 理 器 的 Ll 指令 cache 组 织 结构 相同 ， 容 量 均 为 32KiB ， 都 是 4 路 组 相 联 ，cache 块 均 为 64 字 
节 。A8 的 数据 cache 和 指令 cache 相同 ， 而 Core 7 把 相 联 度 提 高 到 了 8 路 。 虽 然 A8 L2 cache 
容量 可 以 在 128KiB ~ 1MiB 间 变 化 ， 而 Core i7 的 L2 cache 容量 固定 在 256KiB ， 但 是 两 个 处 理 器 
的 L2 cache 都 采用 64 字 节 的 cache 块 。 由 于 Core i7 用 于 服务 器 ， 因 此 它 也 提供 了 共享 的 片上 
L3 cache， 其 容量 与 核 的 数目 相关 。 对 于 4 核 而 言 ，L3 cache 容量 为 8MiB。 
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LI cache 组 织 | 数据 指令 分 离 cache 数据 指令 分 离 cache 
Ll cache 容量 数据 /指令 cache 均 为 32KiB 每 核 的 数据 /指令 cache 均 为 32KiB 
Ll cache 相 联 度 4 路 (1), 4 路 (D) 组 相 联 4 路 (D,8 路 (D) 组 相 联 
Ll 替换 策略 随机 近似 LRU 
L1 块 大 小 64 字 节 64 字 节 
LI 写 策 略 写 回 ， 按 写 分 配 (?) 写 回 ， 不 按 写 分 配 
Ll 命中 时 间 (load) 1 个 时 钟 周期 4 个 时 钟 周期 ， 流 水 执行 
L2 cache 组 织 统一 (指令 和 数据 ) 每 个 核 统 一 (指令 和 数据 ) 
12 cache 容量 128KiB~1MiB 256KiB (0.25MiB) 
L2 cache 相 联 度 8 路 组 相 联 8 路 组 相 联 
12 替换 策略 随机 (?) 近似 LRU 
L2 块 大 小 64 字 节 64 字 节 
12 写 策略 写 回 ， 按 写 分 配 (?) 写 回 ， 按 写 分 配 
[2 命中 时 间 11 个 时 钟 周期 10 个 时 钟 周期 
= 统一 (指令 和 数据 ) 
翁 ® -| 


og | -| wow 料 | 






































1L3 cache 相 联 度 16 路 组 相 联 

L3 替换 策略 近似 LRU 

13 块 大 小 64 字 节 

13 写 策略 写 回 ， 按 写 分 配 


全 
图 5-44 ARM Cortex-A8 和 Intel Core 17 920 的 cache 
在 A8 和 Core i7 中 ，cache 设计 者 面临 的 一 个 巨大 挑战 是 要 支持 每 个 时 钟 周期 执行 一 条 以 
上 的 访 存 指令 。 通 常 的 一 种 做 法 是 将 cache 分 成 多 个 体 ( bank) ， 从 而 在 不 发 生体 冲突 时 ， 能 
够 对 多 个 体 并 行进 行 访问 。 该 技术 与 DRAM 中 的 存储 体 间 交 叉 类 似 ( 见 5.2 节 )。 
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Core 这 采用 了 另外 一 些 优化 技术 来 降低 缺失 开销 。 第 一 种 是 请 求 字 优先 策略 。 另 外 ,在 
cache 缺失 时 ， 继 续 执 行 访问 数据 cache 的 指令 ， 这 是 设计 者 在 设计 乱 序 执行 处 理 器 时 ， 为 了 隐 
藏 cache 缺失 开销 通常 采用 的 技术 ， 称 为 非 阻 塞 cache (nonblocking cache)。 它 们 实现 了 无 阻 
塞 的 两 个 特点 ， 缺 失 命中 (hit under miss) 允许 在 缺失 期 间 有 其 他 的 cache 命中 ; 缺失 情况 下 
的 缺失 (miss under miss) 允许 有 多 个 未 解决 的 cache 缺失 。 这 两 者 中 第 一 个 致力 于 用 其 他 工作 
来 隐藏 一 部 分 缺失 延迟 ， 而 第 二 个 的 目标 在 于 重 释 两 个 不 同 缺失 的 延迟 。 


了 ” 非 阻 塞 cache: 在 处 理 器 处 理 前 面 的 cache 缺失 时 仍 可 正常 访问 的 cache。 


要 重生 多 个 未 解决 的 缺失 的 大 部 分 缺失 时 间 ， 需 要 一 个 高 带宽 的 存储 系统 来 并 行 地 处 理 多 
个 缺失 。 在 个 人 移动 设备 中 ， 存储器 只 能 获得 这 项 功能 的 有 限 的 益处 ， 但 是 大 型 服务 器 和 多 处 
理 器 通常 拥有 的 存储 系统 能 并 行 处 理 不 止 一 个 缺失 。 

Core i7 采用 了 数据 访问 预 取 技术 ， 在 数据 缺失 前 ， 根 据 缺 失 数据 的 特点 来 预测 下 次 数据 访 
问 的 地 址 ， 并 使 用 该 地 址 进行 数据 预 取 。 该 技术 在 访问 循环 中 的 数组 时 非常 有 效 。 

这 些 芯 片 的 存储 器 层次 非常 复杂 ， 且 芯 核 上 很 大 一 部 分 用 作 cache 和 TLB。 这 些 都 是 为 了 
解决 处 理 器 运行 和 存储 访问 速度 之 间 的 巨大 差异 的 结果 。 


A8 和 Core i7 存储 器 层次 的 性 能 


对 Cortex- A8 的 存储 器 层次 进行 仿真 时 ，L2 cache 组 织 为 1MiB 八路 组 相 联 结构 ， 使 用 整数 
的 Minnespec 基准 测试 程序 。 如 第 4 章 所 述 ，Minnespec 基准 测试 程序 由 SPEC2000 基准 测试 程 
序 组 成 ， 但 是 使 用 了 不 同 的 输入 集 来 将 运行 时 间 减 少 几 个 数量 级 。 虽 然 使 用 小 输入 集 没 有 改变 
指令 的 组 合 情 况 ， 但 是 影响 了 cache 行为 。 例 如 ， 在 SPEC2000 中 访 存 最 为 密集 的 整数 程序 mcf 
中 ， 对 于 32KiB 的 cache 来 说 ，Minnespec 的 cache 缺失 率 只 有 完整 版 本 SPEC2000 的 65% 。 而 
对 于 1MiB 的 cache， 该 数据 只 有 1/6。 因 此 ， 不 能 将 Minnespec 和 SPEC2000 之 间 进 行 比 较 ， 更 
不 能 和 用 于 Core 这 的 更 大 的 SPEC2006 比较 。Core 这 在 SPEC2006 上 的 仿真 结果 如 图 5-47 所 
示 。 然 而 ， 像 在 第 4 章 中 一 样 ， 在 考察 Ll 和 L2 cache 缺失 率 和 整体 CPI 的 相对 影响 时 ， 这 些 
数据 非常 有 用 。 

对 于 这 些 基准 测试 程序 而 言 ，A8 的 指令 cache 缺失 率 非 常 低 ， 即 使 对 于 Ll cache 也 是 如 
此 : 大 部 分 程序 的 Ll 指令 cache 的 缺失 率 接近 于 0， 所 有 程序 的 Ll 指令 cache 的 缺失 率 在 1% 
以 下 。 其 原因 主要 是 SPEC 程序 属于 计算 密集 型 ， 且 四 路 组 相 联 的 cache 组 织 结构 消除 了 大 多 
数 的 块 冲突 。 图 5-45 给 出 了 Ag 的 数据 cache 的 结果 ， 其 Ll 和 12 的 缺失 率 都 比较 高 。1CHz 的 
Cortex-A8 的 Ll 缺失 率 的 开销 为 11 个 时 钟 周期 ，L2 缺失 率 的 开销 为 60 个 时 钟 周期 。 图 5-46 给 
出 了 每 次 数据 访问 的 平均 缺失 开销 。 

图 5-47 给 出 了 基准 测试 程序 SPEC2006 在 Core i7 上 运行 时 的 cache 缺失 率 。 一 级 指令 
cache 的 缺失 率 在 0.1% ~ 1.8% 之 间 ， 平 均值 比 0.4% 高 一 点 点 。 该 缺失 率 与 基准 测试 程序 
SPEC2006 在 其 他 研究 中 的 缺失 率 一 致 。 一 级 数据 cache 的 缺失 率 在 5% ~ 10% ， 有 时 高 一 些 ， 
二 级 和 三 级 cache 的 重要 性 就 显而易见 了 。 对 于 二 级 cache 而 言 ， 缺 失 时 的 访 存 开销 在 100 个 
时 钟 周 期 以 上 ， 且 缺失 率 为 4% ， 因 此 三 级 cache 非常 关键 。 假 定 有 一 半 的 指令 是 取 数 或 存 数 
指令 ， 如 果 没 有 三 级 cache， 则 二 级 cache 缺失 将 导致 CPI 增加 2 倍 ! 1% 的 三 级 数据 cache 缺失 
率 仍然 有 点 高 ， 但 是 比 二 级 cache 缺失 率 低 4 倍 ， 比 一 级 cache 缺失 率 低 6 倍 。 


国 | 精 解 由 于 推测 执行 有 时 会 推测 错误 〈 见 第 4 章 ) ， 有 一 些 对 一 级 数据 cache 进行 访问 的 
取 数 或 存 数 指令 最 终 没有 执行 ， 图 5-45 中 的 数据 是 对 所 有 数据 请 求 的 统计 ， 包 括 那 些 最 
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终 被 取消 的 访问 。 真 正 完成 的 数据 访问 的 缺失 率 要 高 1.6 倍 (一 级 数据 cache 平 光电 类 半 
为 95% 比 5.9% )。 








25.0% 
? 
2 中: 
| 
ES 
启 
* | 
10.0% WA - 售 - LI1 数 据 缺 失 率 
| L2 数 据 缺 失 率 
A | 
5 
/ 了 | 
旭 一 一 一 ea | 
0.0% i 人 
NV 4 
Ses 开明 pd EES 


5-45 在 ARM Cortex- A8 上 运行 SPEC2000 的 简化 版 本 Minnespec 时 的 数据 cache 缺失 率 。 对 存储 器 需 
求 大 的 应 用 的 一 级 cache 和 二 级 cache 的 缺失 率 较 高 。 需 要 注意 的 是 二 级 cache 缺失 率 是 全 局 缺 


失 率 ， 也 就 是 说 ， 包 括 那些 一 级 cache 命中 的 所 有 访问 ( 见 5.4 节 的 精 解 )。mcf 是 cache 不 友 
好 的 程序 。 注 意 ， 该 图 与 第 4 章 图 4-76 使 用 相同 的 系统 和 基准 测试 程序 





每 次 数据 访问 的 缺失 开销 
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gzip vpr gcc 
5-46 在 ARM 处 理 器 上 运行 Minnespec 时 ， 每 次 数据 存储 器 访问 时 一 级 和 二 级 cache 的 平均 访 存 开销 
(以 时 钟 周期 计 ) 。 虽 然 一 级 cache 非常 高 ， 但 是 二 级 cache 的 挟 失 开销 病 了 5 倍 以 上 ， 这 意味 着 


二 级 cache 缺失 对 性 能 影响 非常 大 
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5-47 在 Intel Core 17 920 上 运行 完整 的 SPEC2006 整数 程序 是 一 级 、 二 级 和 三 级 数据 cache 的 缺失 率 


5. 14 运行 更 快 : cache 分 块 和 算 阵 乘法 


在 第 3 章 和 第 4 章 中 已 经 通过 子 字 并 行 和 指令 级 并 行 来 优化 DGEMM 的 性 能 ， 可 进一步 通 
过 在 硬件 上 采用 cache 分 块 技术 继续 对 其 性 能 进行 优化 。 图 5-48 给 出 了 图 4-80 中 DGEMM 的 分 
块 版 本 。 其 变化 与 从 图 3-21 中 未 做 优化 的 DGEMM 版 本 到 图 5-21 的 分 块 版 本 类 似 。 此 处 使 用 
第 4 章 中 循环 展开 后 的 DGEMM 版 本 ,并 将 其 在 A、B、C 的 子 和 矩阵 上 调用 多 次 。 事 实 上 ， 除 了 
第 7 行 中 循环 次 数 增 量 不 同 外 ， 图 5-48 中 第 28 ~34 行 和 第 7 ~8 行 分 别 与 图 5-21 中 第 14 ~ 20 
行 和 第 5 ~6 相同 。 

与 前 面 章节 不 同 ， 本 节 没 有 给 出 对 应 的 x86 代码 ， 这 主要 是 因为 分 块 技术 对 于 计算 没有 影 
响 ， 只 是 访问 存储 器 中 的 数据 顺序 发 生 了 变换 ， 从 而 内 循环 的 代码 与 图 4-81 中 的 代码 几乎 相 
同 。 不 同 点 在 于 使 用 了 用 于 实现 循环 的 bookkeeping 整数 指令 。 图 4-80 中 内 循环 之 前 有 14 条 指 
令 ， 内 循环 之 后 有 8 条 指令 ， 而 图 5-48 中 产生 的 bookkeeping 代码 中 ， 内 循环 之 前 有 40 条 指 
令 ， 内 循环 之 后 有 28 条 指令 。 但 是 ， 相 比 cache 缺失 率 减 少 对 性 能 的 贡献 ， 这 些 额 外 的 指令 开 
销 就 显得 微不足道 了 。 图 5-49 对 比 了 未 采用 优化 技术 的 性 能 和 采用 子 字 并 行 、 指 令 级 并 行 和 
cache 优化 技术 的 性 能 对 比 。 对 于 大 矩阵 运算 ， 分 块 技术 使 未 采用 展开 的 AVX 代码 性 能 提升 了 
2~2.5 倍 。 如 果 同 时 采用 这 三 种 优化 技术 ， 则 性 能 提高 8 ~ 15 倍 ， 且 和 矩阵 越 大 ， 性 能 提升 
越 大 。 


苇 ] 精 解 如 3.8 节 中 精 解 所 述 ， 这 些 结果 都 是 在 将 Turbo 模式 关闭 时 获得 的 。 与 第 3 章 和 第 
4 章 相同 ， 如 果 将 Turbo 模式 打开 ， 则 时 钟 频率 将 暂时 提高 到 3.6/2.6 =1.27 倍 。 在 这 种 
情况 下 ， 因 为 只 使 用 了 八 个 核 中 的 一 个 核 ， 所 以 Turbo 模式 运行 得 很 好 。 然 而 ， 如 果 要 运 
行 得 更 快 ， 则 需要 使 用 所 有 的 核 ， 这 将 在 第 6 章 中 讲述 。 
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图 5-48 


图 5-49 





1 #include <x86intrin.h> 

2 #define UNROLL (4) 

3 #define BLOCKSIZE 32 

4 void do_block (int n, int si, int sj, int sk, 





5 double *A, double *B, double *C) 

6 1 

7 for ( int i = si; i < si+BLOCKSIZE; i+=UNROLL*4 ) 
8 for ( int j= sj; 1 < sj+BLOCKSIZE; j3+ ) 4 

9 __m256d c[4]; 

10 for C int x = O05 x < UNROLLS Xt++ ) 

11 c[x] = _mm256_load_pd(C+i+x*4+j*n); 

12 "Ela = GE1JEDY < 

13 for( int k = sk; k < sk+BLOCKSIZE; k++ ) 

14 { 

15 mnm256d b = _mm256_broadcast_sd(B+k+j*n); 
16 I* b= BOKIEjY */ 

17 for (int x = 0; x < UNROLL; x++) 

18 c[x] = _mm256_add_pd(c[x], /* C[x]+=A[i][k]xb */ 
19 _mm256_mul_pd(_mm256_l1oad_pd(A+t+n*k+x*4+i), b)); 
20 } 
21 
22 
23 for ( int x = 0; x < UNROLL; x++ ) 
24 _mm256_store_pd(C+i+x*4+j*n, c[x]); 

/* GEIL = CLXT *y 

25 } 

26 |} 

27 


28 void dgemm (int n, double* A, double* B, double* C) 
29 
30 for ( int sj = 0; sj < n; sj += BLOCKSIZE ) 


31 for ( int si = 0; si < n; si += BLOCKSIZE ) 
32 for ( int sk = 0; sk < n: sk += BLOCKSIZE ) 
33 dd_ DIOock(h, SI, Ss Sk; A; B, C)s 





对 图 4-80 中 的 DGEMM 使 用 cache 分 块 优 化 的 C 版 本 。 与 图 5-21 中 的 变化 相同 。 编 译 器 为 do_ 
block 函数 生成 的 汇编 代码 与 图 4-81 中 的 代码 几乎 相同 。 需 要 再 次 强调 的 是 ， 由 于 编译 器 才 用 
内 联 函 数 调用 ，do_block 的 调用 没有 开销 


需 32x32 出 160x160 480x480 960x960 
16.0 


12.0 


GFLOPS 
oo 
b= 


4.0 





未 优化 的 AVX AVX+ unroll AVX+ 展 开 + 阻 塞 cache 476 


当 和 矩阵 规模 从 32 x 32 增加 到 960 x 960 时 4 种 版 本 的 DGEMM 的 性 能 。 对 于 规模 最 大 的 矩阵 ， : 
完全 优化 的 代码 的 性 能 几乎 是 第 3 章 图 3-21 中 未 优化 代码 的 15 倍 





478 
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5. 15 ” 廖 误 和 陷阱 


作为 计算 体系 结构 中 的 定量 原则 ， 存 储 器 层次 结构 似乎 不 易 受 到 廖 误 和 陷阱 的 影响 。 但 实 
际 上 却 大 相 径 庭 ， 很 多 人 不 仅 已 经 有 了 很 多 的 廖 误 ， 还 遭遇 了 陷阱 ， 而 且 其 中 的 一 些 还 导致 了 
很 多 负面 的 结果 。 下 面 以 学 生 在 练习 和 考试 中 经 常 遇 到 的 陷阱 开始 讲解 。 

陷阱 : 在 写 程序 或 编译 器 生成 代码 时 忽略 存储 系统 的 行为 。 

这 可 以 很 容易 地 写成 一 个 雇 误 :“ 在 写 代码 时 ,程序 员 可 以 忽略 存储 器 层次 ”。 图 5-19 中 
的 排序 和 5. 14 节 的 cache 分 块 技 术 证 明了 如 果 程 序 员 在 设计 算法 时 考虑 存储 系统 的 行为 ， 则 可 
很 容易 地 将 性 能 翻 倍 。 

陷阱 : 在 模拟 cache 的 时 候 ， 忘 记 说 明 字 节 编 址 或 者 cache 块 大 小 。 

当 模 拟 cache 的 时 候 〈 手 动 或 者 通过 计算 机 ) ， 我 们 必须 保证 ， 在 确定 一 个 给 定 的 地 址 被 
映射 到 哪个 cache 块 中 时 ， 一 定 要 说 明 字 节 编 址 和 多 字 块 的 影响 。 例 如 ， 如 果 我 们 有 一 个 容量 
为 32 字 节 的 直接 映射 的 cache， 块 大 小 为 4 字 节 ， 则 字 节 地 址 36 映射 到 cache 的 块 1， 因 为 字 
节 地 址 36 是 块 地 址 9， 而 (9mod 8) =1。 另 一 方面 ， 如 果 地 址 36 是 字 地 址 ， 那 么 它 就 映射 到 
块 (36mod 8) =4。 要 保证 清楚 地 说 明基 准 地 址 。 

同样 ， 我 们 必须 说 明 块 的 大 小 。 假 设 我 们 有 一 个 256 字 节 大 小 的 cache， 块 大 小 为 32 字 
节 。 那 么 字 节 地 址 300 将 落 入 哪 一 块 中 ? 如果 我 们 将 地 址 300 划分 成 域 ， 就 能 看 到 答案 : 


3 30 29 sds ans wn 14 10 9 8 7 6 5 4 3 2 1 0 





cache 块 号 


块 地 址 


字 节 地 址 300 是 块 地 址 
[300/32] = 9 
cache 中 的 块 数 是 
[256/32] = 8 

块 号 9 对 应 于 cache 块 号 (9 mod 8) =1。 

许多 人 ， 包 括 作 者 (在 早期 的 书稿 中 ) 和 那些 忘记 自己 预期 的 地 址 是 字 、 字 节 或 块 号 的 
教师 们 ， 都 犯 过 这 个 错误 。 当 你 做 练习 时 一 定 要 注意 这 个 易 犯 的 错误 。 

陷阱 : 对 于 共享 cache， 组 相 联 度 少 于 核 的 数量 或 者 共享 该 cache 的 线程 数 。 

如 果 不 特别 注意 ， 一 个 运行 在 2" 个 处 理 器 或 者 线程 上 的 并 行程 序 为 数据 结构 分 配 的 地 址 
可 能 映射 到 共享 二 级 cache 同一 个 组 中 。 如 果 cache 至 少 是 2" 路 组 相 联 ， 那么 通过 硬件 可 以 隐 
藏 这 些 程序 偶尔 发 生 的 冲突 。 如 果 不 是 ， 程 序 员 可 能 要 面 对 明 显 不 可 思议 的 性 能 缺陷 一 一 事实 
上 是 由 于 二 级 cache 冲突 缺失 引起 的 一 一 在 程序 迁移 时 发 生 ， 假 定 从 一 个 16 核 的 机 器 迁移 到 一 
个 32 核 的 机 器 上 ， 并 且 如 果 它 们 都 使 用 16 路 组 相 联 的 二 级 cache。 

陷阱 : 用 存储 器 平均 访问 时 间 来 评估 乱 序 处 理 器 的 存储 器 层次 结构 。 

如 果 处 理 器 在 cache 缺失 时 阻塞 ， 那 么 你 可 以 分 别 计算 存储 器 阻塞 时 间 和 处 理 器 执行 时 
间 ， 因 此 可 以 使 用 存储 器 平均 访问 时 间 来 独立 地 评估 存储 器 层次 结构 ( 见 5.4 节 第 2 个 
例子 ) 。 

如 果 处 理 器 在 cache 缺失 时 继续 执行 指令 ， 而 且 甚 至 可 能 维持 更 多 的 cache 缺失 ,那么 唯 
一 可 以 用 来 准确 评估 存储 器 层次 结构 的 办 法 是 模拟 乱 序 处 理 器 和 存储 器 结构 。 

陷阱 : 通过 在 未 分 段 地 址 空间 的 顶部 增加 段 来 扩展 地 址 空间 。 
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在 20 世纪 70 年 代 , 许多 程序 都 变 得 很 大 ， 以 至 于 不 是 所 有 的 代码 和 数据 都 能 仅 用 16 
位 地 址 寻 址 。 于 是 ， 计 算 机 修改 为 32 位 地 址 ， 一 种 方法 是 直接 使 用 未 分 段 的 32 位 地 址 空间 
(也 称 为 平面 地 址 空间 ) ， 另 一 种 方法 是 给 已 经 存在 的 16 位 地 址 再 增加 16 位 长 度 的 段 。 从 
市 场 观 点 来 看 ， 增 加 程序 员 可 见 的 段 ， 并且 连 使 程序 员 和 编译 器 将 程序 划分 成 段 ， 这 样 可 
以 解决 寻 址 问题 。 但 遗憾 的 是 ， 任 何 时 候 ， 一 种 程序 设计 语言 要 求 的 地 址 大 于 一 个 段 的 范 
围 就 会 有 麻烦 ， 比 如 说 大 数组 的 索引 、 无 限制 的 指针 或 者 是 引用 参数 。 此 外 ， 增 加 段 可 以 
将 每 个 地 址 变 成 两 个 字 一 一 一 个 是 段 号 ， 另 一 个 是 段 内 偏 移 一 这 些 在 使 用 寄存 器 中 地 址 时 
就 会 出 现 问题 。 

请 误 : 实际 的 磁盘 故障 率 和 规格 书 中 声明 的 一 致 。 

最 近 的 两 项 研究 评估 了 大 量 磁 盘 ， 目 的 是 检查 实际 结果 和 规格 之 间 的 关系 。 其 中 一 项 研究 
了 将 近 100 000 个 磁盘 ， 他 们 标 称 其 MTTF 为 1 000 000 ~ 1 500 000 小 时 或 者 说 具有 0.6% ~ 
0. 8% 的 AFR。 他 们 发 现 2% ~4% 的 AFR 是 常见 的 ， 通 常 比 设 定 的 故障 率 高 3 ~5 倍 [Schroe- 
der 和 Gibson ，2007 ] 。 男 一 项 研究 了 100 000 个 磁盘 ， 这 些 磁盘 标 称 具 有 1.5% 的 AFR， 以 及 在 
第 一 年 中 ， 磁 盘 故 障 率 为 1.7% ， 到 第 三 年 ， 磁 盘 的 故障 率 上 升 到 8. 6% ， 也 就 是 说 ， 大 约 是 
规格 书 中 指定 的 故障 率 的 6 倍 之 多 [ Pinheiro、Weber 和 Barroso，2007 ] 。 

廖 误 : 操作 系统 是 调度 磁盘 访问 的 最 好 地 方 。 

如 5. 2 节 所 提 到 的 ， 以 高 层 接口 为 宿主 操作 系统 提供 逻辑 块 地 址 。 假 设 在 这 样 的 高 层 抽象 
层 0S 可 以 通过 将 逻辑 块 的 地 址 按照 递增 的 顺序 排序 以 得 到 最 好 的 性 能 。 然 而 ， 由 于 磁盘 知道 
逻辑 地 址 被 映射 到 扇 区 、 磁 道上 以 及 磁 面 上 的 实际 的 物理 地 址 ， 这 样 通过 调度 就 可 以 减少 旋转 
以 及 寻 道 的 时 间 。 

例如 ,假设 以 下 工作 负载 是 4 个 读 操作 [Anderson，2003 ] : 

















读 8 
读 16 
读 1 
读 128 





宿主 0S 可 能 对 4 个 读 操作 重新 进行 调度 ， 编 排 成 逻辑 块 的 读 操作 的 顺序 : 


操作 LBA 的 起 始 地 址 长 度 

















依赖 于 数据 在 磁盘 中 的 相对 位 置 ， 如 图 5-50 所 示 ， 重 新 编排 VO 顺序 可 能 会 使 情况 变 得 
更 糟 。 磁 盘 调 度 的 读 操作 在 磁盘 的 3/4 的 旋转 周期 就 全 部 完成 ， 而 操作 系统 调度 的 读 操作 花费 
了 3 个 旋转 周期 。 

陷阱 : 在 不 为 虚拟 化 设计 的 指令 集体 系 结构 上 实现 虚拟 机 监视 器 。 

在 20 世纪 70 年 代 和 80 年 代 , 很 多 计算 机 体系 结构 设计 者 并 没有 刻意 去 保证 所 有 读 写 相 
关 的 硬件 资源 指令 都 是 特权 指令 。 这 种 放任 的 态度 导致 了 VMM 在 这 些 体 系 结构 上 存在 问题 ， 
包括 x86， 这 里 我 们 就 以 它 为 例 。 
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图 5-50 0S 调度 与 磁盘 调度 访问 的 例子 ， 标 记 为 宿主 顺序 和 驱动 顺序 。 前 者 完成 4 个 读 操作 需要 3 
个 旋转 周期 ， 而 后 者 完成 4 个 读 操 作 仅 仅 在 一 个 3/4 的 旋转 周期 即 可 完成 〈 资 料 来 源 : 
Anderson[ 2003 ] ) 


图 5-51 指出 了 虚拟 化 产生 问题 的 18 条 指令 [ Robin 和 Irvine，2000] 。 其 中 两 大 类 指令 是 : 
。 在 用 户 模式 下 读 控 制 寄 存 器 ， 暴 露 了 在 虚拟 机 上 运行 的 guest 操作 系统 (如 前 面 提 到 的 POPF ) 。 
。 检查 分 段 的 体系 结构 所 需 的 保护 ， 但 却 假设 操作 系统 在 最 高 的 特权 级 运行 。 


当 运 行 在 用 户 模式 时 ， 访 问 敏感 寄存 器 无 须 trap 中 断 存储 全 局 描述 符 表 寄存 器 (SGDT) 

存储 局 部 描述 符 表 寄 存 器 (SLDT) 

存储 中 断 描述 符 表 寄 存 器 (SIDT) 

存储 机 器 状态 字 (SMSW) 

标志 人 栈 (PUSHF，PUSHFD) 

标志 出 栈 (POPF，POPFD) 

在 用 户 模式 下 访问 虚拟 存储 机 制 时 ，x86 保护 检查 指令 从 段 描述 符 读 取 访问 权限 (LAR) 

失效 从 段 描述 符 读 取 段 的 边界 (LSL) 

如 果 段 描述 符 可 读 ， 进 行 读 校 验 (VERR) 

如 果 段 描述 符 可 写 ， 进 行 写 校 验 (VERW) 

段 寄 存 器 出 栈 (POP CS, POP SS，…) 

段 寄存 器 入 栈 (PUSH CS, PUSH SS，…) 

远 调用 不 同 的 特权 级 ( CALL) 

远 返回 至 不 同 的 特权 级 ( RET) 

远 跳 转 至 不 同 的 特权 级 (JMP) 

软 中 断 (INT) 

存储 段 选择 寄存 器 (STR) 

永基 HR 和 # 人 (ww | 

图 5-51 虚拟 化 产生 问题 的 18 条 x86 指令 的 概述 [Robin 和 Irvine，2000]。 上 面 一 组 的 前 5 条 指令 允许 程序 
在 用 户 模式 下 读 控制 寄存 器 ， 而 无 须 trap 中 断 ， 例 如 描述 符 表 寄 存 器 。 标 记 出 栈 指令 会 修改 包含 敏 
感 信 息 的 控制 寄存 器 ， 但 在 用 户 模 式 下 将 失效 而 无 任何 提示 。x86 体系 结构 中 段 的 保护 检查 在 下 面 
的 一 组 指令 中 ， 当 读 取 控制 寄存 器 时 ， 作 为 指令 执行 的 一 部 分 ， 都 会 隐 式 地 检查 特权 级 。 进 行 检 查 


时 操作 系统 必须 运行 在 最 高 特权 级 ， 但 是 对 客户 虚拟 机 并 没有 这 样 的 要 求 。 只 有 在 移 人 段 寄 存 器 操 
作 时 会 试图 修改 控制 状态 ， 但 是 ， 保 护 检查 同样 会 阻止 它 这 么 做 
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为 了 简化 在 x86 上 实现 VMM，AMD 和 Intel 都 提出 通过 新 的 模式 扩展 体系 结构 。Intel 的 
VT-x 为 虚拟 机 运行 提供 了 一 个 新 的 执行 模式 、 一 个 面向 虚拟 机 状态 的 体系 结构 定义 、 快 速 虚 
拟 机 切换 指令 ， 以 及 一 大 组 用 来 选择 调和 人 VMM 环境 的 参数 。 总 之 ，VT-x 在 x86 中 加 了 11 条 
新 指令 。AMD 的 Pacifica 做 了 相似 的 改进 。 

另 一 种 方法 通过 修改 硬件 来 对 操作 系统 做 细微 的 修改 以 简化 虚拟 化 。 这 种 技术 称 为 泛 虚 拟 
化 (paravirtualization) ， 例 如 开源 的 虚拟 机 监视 器 Xen 就 是 一 个 很 好 的 例子 。Xen 虚拟 机 监视 
器 提供 给 客户 操作 系统 一 个 抽象 虚拟 机 ， 它 仅仅 使 用 了 供 虚 拟 机 监视 器 运行 的 x86 物理 硬件 中 
易于 虚拟 化 的 一 部 分 。 


5. 16 本章 小 结 


无 论 在 最 快 的 计算 机 还 是 最 慢 的 计算 机 中 ， 构 成 主 存 的 原材料 一 一 DRAM 本 质 是 相同 的 ， 
并 且 是 最 便宜 的 ， 这 使 得 构建 一 个 和 快速 处 理 器 保持 同步 的 存储 系统 变 得 更 加 困难 。 

局 部 性 原理 可 以 用 来 克服 存储 器 访问 的 长 延迟 一 一 这 个 策略 的 正确 性 已 经 在 存储 器 层次 结 
构 的 各 级 都 得 到 了 证 明 。 尽 管 层次 结构 中 的 各 级 从 量 的 角度 来 看 非常 不 同 , 但 是 在 它们 的 执行 
过 程 中 都 遵循 相似 的 策略 ， 并 且 利 用 相同 的 局 部 性 原理 。 

多 级 cache 可 以 更 方便 地 使 用 更 多 的 优化 ， 这 有 两 个 原因 。 第 一 ， 较 低级 cache 的 设计 参 
数 与 一 级 cache 不 同 。 例 如 ， 由 于 较 低 级 cache 的 容量 一 般 很 大 ， 因 此 可 能 使 用 更 大 容量 的 块 。 
第 二 ， 较 低级 cache 并 不 像 一 级 cache 那样 经 常 被 处 理 器 用 到 。 这 让 我 们 考虑 当 较 低级 cache 空 
闲 时 让 它 做 一 些 事情 以 预防 将 来 的 缺失 。 

另 一 个 趋势 是 寻求 软件 的 帮助 。 使 用 大 量 的 程序 转换 和 硬件 设备 有 效 地 管理 存储 器 层次 结 
构 是 增强 编译 器 作用 的 主要 焦点 。 现 在 有 两 种 不 同 的 观点 。 一 种 是 重新 组 织 程序 结构 以 增强 它 
的 空间 和 时 间 局 部 性 。 这 种 方法 主要 针对 以 大 数组 为 主要 数据 结构 的 面向 循环 的 程序 ;大 规模 
的 线性 代数 问题 就 是 一 个 典型 的 例子 ， 例 如 DGEMM。 通 过 重新 组 织 访问 数组 的 循环 增强 了 局 
部 性 一 一 也 因此 改进 了 cache 性 能 。 

还 有 一 种 方法 是 预 取 (prefetching) 。 在 预 取 机 制 中 ， 一 个 数据 块 在 真正 被 访问 之 前 就 被 取 
入 cache 中 了 。 许 多 微 处 理 器 使 用 硬件 预 取 尝试 预测 访问 ， 这 对 软件 可 能 比较 困难 。 


人 “ 预 取 : 使 用 特殊 指令 将 未 来 可 能 用 到 的 指定 地 址 的 cache 块 提前 搬 到 cache 中 的 一 种 技术 。 


第 三 种 方法 是 使 用 优化 存储 器 传输 的 特殊 cache 感知 (cache-aware) 指令 。 例 如 ， 在 第 6 
章 的 6. 10 节 中 ， 微 处 理 器 使 用 了 一 个 优化 设计 : 当 发 生 写 缺失 时 ， 由 于 程序 要 写 整 个 块 ， 因 
而 并 不 从 主 存 中 取 回 一 个 块 。 对 于 一 个 内 核 来 说 ， 这 种 优化 明显 减少 了 存储 器 的 传输 。 

我 们 将 在 第 6 章 中 看 到 ， 对 并 行 处 理 器 来 说 ， 存 储 系统 也 是 一 个 重要 的 设计 问题 。 存 储 器 
层次 结构 决定 系统 性 能 的 重要 性 在 不 断 增长 ， 这 也 意味 着 在 未 来 的 几 年 内 ， 这 一 领域 对 设计 者 
和 研究 者 来 说 将 成 为 焦点 。 


名 5. 17 ”历史 观点 和 拓展 阅读 


本 节 网 站 中 的 内 容 描 述 了 存储 器 技术 的 概况 ， 从 和 汞 延迟 线 到 DRAM ， 存 储 器 层次 结构 的 发 
明 ， 保 护 机 制 以 及 虚拟 机 ， 最 后 以 操作 系统 的 一 个 简单 发 展 历史 作 总 结 , 包括 CTSS、MUL- 
TICS、UNIX、BSD UNIX、 MS-DOS、Windows 和 Linux。 


5.18 练习 题 


5.1 在 这 个 练习 中 ， 考 虑 矩阵 计算 中 存储 器 的 局 部 特性 。 下 面 的 代码 由 C 语言 编写 ， 在 同一 行 中 的 元 
素 被 连续 存放 。 假 定 每 个 字 是 32 位 整数 。 
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S. 1. 1 
5.1.2 
$5.1.3 


5.1.4 
S.1.5 
5.1.6 

$5.2 


$.2.1 


5.2.2 


5.2.3 


5.2.4 


5.2.5 


5.2.6 


5.3 


for (I=0; I<8; I++) 
for (J=0; J¢8000; J++) 
ALI]j[LJ]j=BLI]L0]+A[J]LI]; 


[5] <5.1 > 16 字 节 的 cache 块 中 可 以 存放 多 少 32 位 的 整数 ? 
[5] <5.1 > 访问 哪些 变量 会 显示 出 时 间 局 部 性 ? 
[5] <5. 1 > 访问 哪些 变量 会 显示 出 空间 局 部 性 ? 
局 部 性 同时 受 访问 顺序 和 数据 存放 位 置 的 影响 。 在 同一 列 的 矩阵 元 素 是 连续 存放 的 情况 下 ， 同 样 
的 计算 机 也 可 以 用 下 面 的 不 同 于 C 的 Matlab 来 写 。 
for TI=1:8 

for J=1:8000 

A(I,J)=B(I1,0)+A(yJ,1):; 

end 

end 


[10] <5.1 > 存放 全 部 将 被 访问 的 32 位 矩阵 元 素 需要 多 少 16 字 节 的 cache 块 ? 

[5] <5.1 > 访问 哪些 变量 会 显示 出 时 间 局 部 性 ? 

[5] <5. 1 > 访问 哪些 变量 会 显示 出 空间 局 部 性 ? 

cache 为 处 理 器 提供 了 一 个 高 性 能 的 存储 器 层次 结构 ， 因 此 十 分 重要 。 下 面 是 一 个 32 位 存储 器 地 
址 引用 的 列表 ， 给 出 的 是 字 地 址 。 


3, 180, 43, 2, 191, 88, 190, 14, 181, 44, 186, 253 


[10] <5.3 > 已 知 一 个 直接 映射 的 cache， 有 16 个 块 ， 块 大 小 为 1 个 字 。 对 于 每 次 访问 ， 请 标识 
出 二 进 制 地 址 、 标 记 以 及 索引 。 假 设 cache 最 开始 为 空 ， 那 么 请 列 出 每 次 访问 是 命中 还 是 缺失 。 
[10] <5.3 > 已 知 一 个 直接 映射 的 cache， 有 8 个 块 ， 块 大 小 为 2 个 字 。 对 于 每 次 访问 ， 请 标识 出 
二 进 制 地 址 、 标 记 以 及 索引 。 假 设 cache 最 开始 为 空 ， 那 么 请 列 出 每 次 访问 是 命中 还 是 缺失 。 
[20] <5.3，5.4> 对 已 知 的 访问 来 优化 cache 的 设计 。 这 里 有 三 种 直接 映射 的 cache 设计 方案 ， 
每 个 容量 都 为 8 个 字 : C1 块 大 小 为 1 个 字 ，C2 块 大 小 为 2 个 字 ，C3 块 大 小 为 4 个 字 。 根 据 缺 失 
率 ， 哪 种 cache 设计 最 好 ? 如果 缺失 阻塞 时 间 为 25 个 周期 ，C1 的 访问 时 间 为 2 个 周期 ，C2 为 3 
个 周期 ，C3 为 5 个 周期 ， 那么 哪 种 cache 设计 最 好 ? 

这 里 有 许多 对 cache 整体 性 能 很 重要 的 不 同 的 设计 参数 。 下 面 列 出 了 对 于 不 同 的 直接 映射 cache 
设计 的 参数 。 

cache 数据 量 : 32KiB 

cache 块 大 小 : 2 个 字 

cache 访问 时 间 : 1 个 周期 
[15] <5.3 > 假定 32 位 的 地 址 ， 计 算 上 面 列 出 的 cache 所 需 的 总 位 数 。 给 定 总 的 大 小 ， 找 出 最 接 
近 的 直接 映像 cache 的 总 的 大 小 ， 该 cache 块 的 大 小 为 16 个 字 长 或 更 大 。 请 解释 为 什么 第 二 种 
cache 比 第 一 种 cache 的 访问 速度 更 慢 ， 尽 管 第 二 种 cache 的 数据 量 更 大 。 

[20] <5.3，5.4 > 在 一 个 2KiB 的 两 路 组 相 联 cache 上 产生 一 系列 读 请 求 时 的 缺失 率 要 比 在 表 中 
cache 上 执行 读 请 求 的 缺失 率 低 。 请 给 出 一 个 可 能 的 解决 方案 ， 使 得 表 中 列 出 的 cache 的 缺失 率 等 
于 或 者 低 于 2KiB cache 的 缺失 率 。 讨 论 这 种 解决 方案 的 优点 和 缺点 。 

[15] <5.3 >5.3 节 的 公式 说 明了 用 来 索引 直接 映射 cache 的 典型 方法 : 〈 块 地 址 ) mod (cache 中 
的 块 数 ) 。 假 设 地 址 为 32 位 ，cache 中 有 1024 个 块 ， 考 虑 一 个 不 同 的 索引 函数 : 〈 块 地 址 [31 
27]XOR 块 地 址 [26: 22] ) 。 可 以 使 用 这 个 公式 来 索引 直接 映射 的 cache 吗 ? 如 果 可 以 ， 请 解 杰 
原因 ， 并 且 讨 论 可 能 需要 对 cache 做 的 一 些 改动 。 如 果 不 可 以 ， 请 解释 原因 。 

对 于 一 个 32 位 地 址 的 直接 映射 的 cache 设计 ， 下 面 的 地 址 位 用 来 访问 cache。 


31 ~10 9~5 4~0 
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5.3.4 
5.3.5 
5.3.6 

5.4 


5.4.1 


5.4.2 


5.4.3 


5.4.4 


5.4.5 


5.4.6 
5.5 


5.5.1 


5.5.2 


5.5.3 


[5] <5.3 > cache 块 大 小 是 多 少 (单位 为 字 )? 
[5] <5.3 > cache 有 多 少 项 ? 

[5] <5.3 > 这 样 的 cache 执行 时 所 需 的 总 位 数 与 数据 存储 位 数 之 间 的 比率 是 多 少 ? 
下 表 记 录 了 从 上 电 开 始 的 cache 访问 的 字 节 地 址 。 





和 
0 4 16 132 | 232 | 16 | 1o4 | 30 | lo [3100 | 180 | 2180 


[10] <5.3 > 有 多 少 块 被 替换 ? 

[10] <5.3 > 命中 率 是 多 少 ? 

[20] <5.3 > 列 出 cache 的 最 终 状 态 ， 每 个 有 效 项 以 记录 的 形式 < 索引， 标记， 数据 > 表示 出 来 。 
回忆 一 下 两 个 写 策略 和 写 分 配 策略 ， 它 们 结合 起 来 既 可 以 在 一 级 cache 中 执行 ， 也 可 以 在 二 级 
cache 中 执行 。 假 定 一 级 和 二 级 cache 如 下 : 


写 直达 ， 写 不 分 配 写 回 ， 写 分 配 


[5] <5.3，5.8 > 在 存储 器 层次 结构 中 的 不 同 层 使 用 缓冲 器 来 降低 访问 延迟 。 对 这 个 给 定 的 配置 ， 
列 出 一 级 cache 与 二 级 cache 之 间 ， 以 及 二 级 cache 与 存储 器 之 间 可 能 需要 的 缓冲 器 。 

[20] <5.3,.5.8 > 描述 处 理 一 级 cache 写 缺 失 的 过 程 ， 考 虑 里 面 的 组 件 以 及 替换 一 个 脏 块 的 可 
能 性 。 

[20] <$.3，5. 8 > 对 于 一 个 多 级 独占 cache (一 个 块 只 能 存放 在 一 个 cache 中 ,或 者 在 一 级 cache 
中 ,或 者 在 二 级 cache 中 ) 配置 ,描述 处 理 一 级 cache 写 缺 失 的 过 程 ， 考 虑 到 里 面 的 组 件 以 及 替 
换 一 个 脏 块 的 可 能 性 。 

考虑 下 面 的 方案 和 cache 行为 。 


每 1000 条 指令 每 1000 条 指令 中 指令 cache 数据 cache 坪 大 小 ( 字 节 】 
数据 读 的 次 数 数据 写 的 次 数 缺失 率 和 欲 失 率 用 


[5] <5.3，5. 8 > 对 于 一 个 使 用 写 直 达 法 、 写 分 配 策略 的 cache， 如 果 CPI 为 2， 所 需 最 小 的 读 / 写 
带宽 是 多 少 (以 每 周期 字 节 数 来 度量 )? 





[5] <5.3，5. 8 > 对 于 一 个 使 用 写 回 法 、 写 分 配 策略 的 cache， 假 定 30% 被 蔡 换 的 数据 块 为 脏 块 ， 


那么 如 果 CPI 为 2， 所 需 最 小 的 读 / 写 带宽 是 多 少 ? 
[5] <5.3，5. 8 > 如 果 要 实现 CPI = 1. 5 的 性 能 ， 所 需 的 最 小 带宽 是 多 少 ? 


播放 音频 或 视频 文件 的 多 媒体 应 用 是 一 类 被 称 为 “ 流 ” 的 负载 的 一 部 分 ; 即 它们 取 回 大 量 的 数 


据 ,， 但 是 大 部 分 数据 都 不 会 再 使 用 。 考 虑 一 个 视频 流 负 载 依次 访问 一 个 512KiB 的 工作 集 的 情况 ， 
地 址 流 如 下 : 


0, 2, 4, 6, 8, 10, 12, 14, 16... 


[5] <5.4，5. 8 > 假设 有 一 个 64KiB 的 直接 映射 cache，cache 块 大 小 为 32 字 节 。 那 么 对 于 上 面 的 
地 址 流 ， 缺失 率 是 多 少 ? 当 cache 大 小 或 者 工作 集 变化 时 ，cache 的 缺失 率 如 何 随 之 变化 ? 根据 
3C 模型 ， 这 些 缺 失 如 何 被 分 类 ? 

[5] <5.1，5. 8 > 当 cache 块 大 小 分 别 为 16 字 节 、64 字 节 和 128 字 节 时 ， 重 新 计算 缺失 率 。 该 负 
载 所 采用 的 是 哪 种 局 部 性 ? 

[10] <5. 13 > “ 预 取 ” 是 一 种 技术 : 当 一 个 特殊 cache 块 被 访问 时 ， 预 测 地 址 模式 并 推测 地 取 回 
其 他 cache 块 。 预 取 的 一 个 例子 是 流 缓冲 区 ， 当 一 个 特定 的 cache 块 被 取 回 时 ， 将 与 其 相 邻 的 
cache 块 也 依次 预 取 回 到 一 个 独立 的 缓冲 区 中 。 如 果 所 需 的 数据 在 预 取 缓冲 区 中 ， 那 么 看 成 是 一 
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S. 6.1 
5.6.2 
5.6.3 


5.6.4 


5.6.5 


5.6.6 


5..7 


5.7.1 


S.7.2 


5.7.3 


次 命中 并 且 将 数据 移 人 cache， 同 时 预 取 下 一 个 cache 块 。 假 设 一 个 流 缓冲 区 有 两 项 ， 并 上 且 假设 
cache 延迟 满足 : 在 先前 cache 块 的 计算 完成 之 前 可 以 加 载 下 一 个 cache 块 。 那 么 对 于 上 面 的 地 址 
流 ， 缺 失 率 是 多 少 ? 
cache 块 大 小 〈B) 影响 了 缺失 率 和 缺失 延迟 。 假 设 有 下 面 的 缺失 率 表 ， 并 假定 CPI 为 1 的 机 器 
中 ， 每 条 指令 平均 访问 次 数 (指令 和 数据 ) 为 1.35， 给 定 不 同 容 量 的 cache 的 缺失 率 ， 请 找 出 最 
优 的 cache 块 大 小 。 














| 8:4% 16:3% 32:2% 64:1.5% 128: 1% 











[10] <5.3 > 缺失 延迟 为 20 xB 个 周期 时 ， 最 佳 的 块 大 小 是 多 少 ? 

[10] <5.3 > 缺失 延迟 为 24 +B 个 周期 时 ， 最 佳 的 块 大 小 是 多 少 ? 

[10] <5.3 > 缺失 延迟 为 恒定 值 时 ， 最 佳 的 块 大 小 是 多 少 ? 

在 这 个 练习 中 ， 我 们 将 研究 不 同 容量 对 整体 性 能 的 影响 。 通 常 来 说 ，cache 访问 时 间 与 cache 容 
量 成 正比 。 假 设 访问 主 存 需要 70ns， 并 且 在 所 有 指令 中 ， 有 36% 的 指令 需要 访 存 。 下 表 是 Pl 和 
P2 两 个 处 理 器 各 自 的 一 级 cache 的 数据 。 














p+ 2KiB | 8.0% | 0. 66ns 
P2 4KiB 6.0% 0. 90ns 


[5] <5.4 > 假定 一 级 cache 命中 时 间 决 定 了 Pl 和 P2 的 周期 时 间 ， 它 们 各 自 的 时 钟 频率 是 多 少 ? 
15] <5.4>Pl 和 P2 各 自 的 AMAT (平均 存储 器 访问 时 间 ) 分 别 是 多 少 ? 

[5] <5.4 > 假定 在 没有 任何 存储 器 阻塞 时 基本 的 CPI 为 1.0，P1 和 P2 各自 的 总 CPI 分 别 是 多 少 ? 
哪个 处 理 器 更 快 ? 

对 下 面 的 三 个 问题 ， 我 们 考虑 在 Pl 中 增加 二 级 cache， 以 弥补 一 级 cache 容量 的 限制 。 在 解决 这 
些 问 题 时 ， 依 然 使 用 上 表 中 一 级 cache 的 容量 和 命中 时 间 。 二 级 cache 缺失 率 是 它 的 局 部 缺失 率 。 


1MiB 95% 5. 62ns 





[10] <5.4 > 增加 二 级 cache 后 ，P1 的 AMAT 是 多 少 ? 有 了 二 级 cache，AMAT 是 更 好 还 是 更 
差 了 ? 

[5] <5.4 > 假定 在 没有 任何 存储 器 阻塞 时 基本 的 CPI 为 1.0， 增 加 二 级 cache 后 ，P1 的 总 的 CPI 
是 多 少 ? 

[10] <5.4>P1 有 了 二 级 cache 后 ， 哪 个 处 理 器 更 快 ?” 如 果 Pl 更 快 ， 那 么 P2 中 一 级 cache 的 缺 
失 率 需要 为 多 少 才能 匹配 Pl 的 性 能 ?如果 P2 更 快 ， 那么 Pl 中 一 级 cache 的 缺失 率 需要 为 多 少 才 
能 匹配 P2 的 性 能 ? 

这 个 练习 研究 了 不 同 cache 设计 的 效果 ， 特 别 将 关联 的 cache 与 5. 4 节 中 的 直接 映射 的 cache 进行 
比较 。 练 习 中 使 用 的 是 练习 题 5. 2 中 的 地 址 流 。 

[10] <5.4 > 使 用 练习 题 5. 2 中 的 访问 信息 ， 对 于 一 个 3 路 组 相 联 、 块 大 小 为 2 个 字 、 总 容量 为 
24 个 字 、 使 用 LRU 替换 算法 的 cache， 指 出 cache 中 最 终 的 内 容 。 对 每 个 访问 ， 标 识 出 索引 位 、 
标记 位 、 块 偏 移 位 ， 以 及 当前 访问 是 命中 还 是 缺失 。 

[10] <5.4 > 使 用 练习 题 5. 2 中 的 访问 信息 ， 对 于 一 个 全 相 联 、 块 大 小 为 1 个 字 、 总 容量 为 8 个 
字 、 使 用 LRU 替换 算法 的 cache， 指 出 cache 中 最 终 的 内 容 。 对 每 个 访问 ， 标 识 出 索引 位 、 标 记 
位 ， 以 及 当前 访问 是 命中 还 是 缺失 。 

[15] <5.4 > 使 用 练习 题 5. 2 中 的 访问 信息 ， 对 于 一 个 全 相 联 、 块 大 小 为 2 个 字 、 总 容量 为 8 个 
字 、 使 用 LRU 替换 算法 的 cache， 请 问 缺 失 率 是 多 少 ? 如 果 替 换 为 MRU (最 近 最 常 使 用 ) 算法 ， 
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5.7.4 


5.7.6 


5.8 


5.8.1 
5.8.2 
5.8.3 
5.8.4 


5.9 


5.9.1 


5.9.2 


5.9.3 


5.10 


缺失 率 是 多 少 ? 在 这 些 蔡 换 策 略 下 ， 最 好 的 情况 下 ，cache 缺失 率 是 多 少 ? 
多 级 cache 是 一 项 重要 技术 ， 它 在 克服 一 级 cache 提供 的 有 限 空 间 的 同时 仍然 保持 了 速度 。 假 设 
一 个 处 理 器 的 参数 如 下 : 


包含 直接 
映射 的 二 级 
cache 时 的 
全 局 缺失 率 


[10] <5.4 > 计算 表 中 处 理 器 的 CPI: 1) 只 有 一 级 cache; 2) 一 个 直接 映射 的 二 级 cache; 3) 一 
个 8 路 组 相 联 的 二 级 cache。 如 果 主 存 访问 时 间 加 倍 ，CPI 如 何 变 化 ? 如 果 主 存 访问 时 间 减 半 ， 
CPI 又 如 何 变 化 ? 

[10] <5.4 > 拥有 比 两 级 cache 更 多 的 cache 层次 是 可 能 的 。 已 知 上 述 的 处 理 器 拥有 一 个 直接 映射 
的 二 级 cache， 一 个 设计 者 希望 增加 一 个 三 级 cache， 其 访问 时 间 为 50 个 周期 ， 并且 全 局 缺失 率 
降低 到 1. 3% 。 这 种 设计 能 提供 更 好 的 性 能 吗 ? 通常 来 说 ， 增 加 一 个 三 级 cache 的 优点 和 缺点 分 
别 是 什么 ? 

[20] <5.4 > 在 以 前 的 处 理 器 中 ， 如 Intel Pentium 或 Alpha 21264， 二 级 cache 在 远离 主 处 理 器 和 
一 级 cache 的 片 外 (放置 在 不 同 的 芯片 上 ) 。 这 使 得 二 级 cache 很 大 ， 访 问 延 迟 也 高 得 多 ， 同 时 由 
于 二 级 cache 以 较 低 的 频率 运行 ， 带 宽 通 常 也 较 低 。 假 设 一 个 512KiB 的 片 外 二 级 cache 的 全 局 缺 
失 率 为 4% 。 如 果 cache 每 增加 512KiB 容量 可 以 降低 0.7% 的 全 局 缺失 率 ， 并 且 cache 总 的 访问 时 
间 为 50 个 周期 ， 那 么 cache 容量 为 多 大 时 才能 匹配 表 中 直接 映射 的 二 级 cache 的 性 能 ”如 果 匹 配 
表 中 8 路 组 相 联 的 cache 性 能 ，cache 容量 又 需要 是 多 少 ? 

失效 时 间 间 隔 (mean time between failure，MTBF) 、 替 换 时 间 (mean time to replacement，MTTR ) 
和 无 故障 工作 时 间 ( mean time to failure，MTTF) 对 于 评估 一 个 存储 资源 的 可 靠 性 和 可 用 性 非常 
有 用 。 通 过 使 用 如 下 参数 回答 下 列 问题 : 


Mr 
3 年 1 天 


[5] <5.5 > 计算 表 中 每 台 设 备 的 MTBF。 

[5] <5.5 > 计算 表 中 每 台 设 备 的 可 用 性 。 

[5] <5.5 > 如 果 MTTR 接近 于 0， 则 可 用 性 如 何 变化 ? 这 是 一 个 合理 的 情形 吗 ? 

[5] <5.5 > 如 果 MTTR 非常 高 ， 例 如 一 台 设 备 非常 难 维修 ， 则 可 用 性 如 何 变化 ? 这 是 否 意味 着 该 
设备 可 用 性 很 低 ? 

本 练习 题 检查 纠正 一 位 错 检 测 两 位 错 (SECZDED) 的 汉 明 码 。 

[5] <5.5 > 如 果 要 对 128 位 字 采 用 SECZDED 编码 进行 保护 ， 最 少 需要 多 少 位 的 奇偶 位 ? 

[5] <5.5 >5.5 节 指 出 ， 现 代 服务 器 存储 器 模块 (DIMM) 对 于 64 位 数据 ， 使 用 8 位 奇偶 位 来 实 
现 SEC/DEC ECC。 计 算 该 编码 的 开销 /性 能 比 ， 并 与 5.9. 1 进行 比较 。 在 这 里 开销 是 指 所 需 的 相 
对 的 奇偶 位 ， 性 能 是 指 相对 的 能 够 纠正 的 错误 数量 。 哪 种 编码 比较 好 ? 

[5] <5.5 > 考虑 一 个 采用 4 位 奇偶 位 来 保护 8 位 字 的 SEC。 如 果 读 出 值 为 0x375， 是否 有 错 ? 如 
果 有 错 ， 对 错误 进行 纠正 。 

对 于 一 个 高 性 能 系统 如 B-tree 索引 数据 库 ， 页 的 大 小 主要 由 数据 量 和 磁盘 性 能 决定 。 假 设 一 个 
B-tree 索 引 页 (项 数 固定 ) 使 用 了 70% 。 使 用 的 页 就 是 B-tree 的 深度 ， 用 log。( 项 数 ) 来 计算 。 
下 表 显 示 的 是 10 年 前 的 一 个 拥有 16 字 节 表 项 的 磁盘 ， 延 迟 为 10ms， 传 输 率 为 10MB/s， 最 优 的 
页 大 小 是 16K。 


主 存 | 每 条 指令 的 直接 映射 
的 三 级 cache 


8 路 组 相 联 | 包含 8 路 组 相 联 
的 二 级 cache | 的 二 级 cache 时 
的 全 局 缺失 率 


的 速度 
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489 








490 
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5. 10.1 
5.10.2 
5.10.3 


5. 10. 4 
5. 10. 5 
S. 10.6 


5S. 11 


| 。。 页 的 使 用 /B-tree 深度 
“(各 存 的 磁盘 访问 次 数 )- 








































2 6.49 或 log (2 048/16 x0.7) 

4 7.49 | 10.4 0.72 
8 8.49 10.8 0.79 
16 9.49 11.6 0. 82 
32 10. 49 13.2 0.79 
64 11.49 16.4 0.70 
128 12. 49 22.8 0. 55 
256 13. 49 35.6 0. 38 


[10] <5.7 > 如果 项 数 为 128 字 节 ， 最 佳 的 页 大 小 是 多 少 ? 

[10] <5.7 > 根据 练习 题 5. 10. 1， 如 果 页 处 于 半 满 状态 ， 最 佳 的 页 大 小 是 多 少 ? 

[20] <5.7 > 根据 练习 题 5. 10.2， 如 果 使 用 的 是 最 新 的 磁盘 ， 延 时 3ms， 而 传输 率 为 100MB/s 
时 ,最 佳 的 页 大 小 是 多 少 ? 请 解释 为 什么 未 来 的 服务 器 可 能 用 较 大 的 页 ? 

在 DRAM 保存 “频繁 使 用 ”的 页 (“热门 ”的 页 ) 可 以 避免 磁盘 访问 ， 但 是 对 于 一 个 系统 ,我 
们 如 何 判断 “频繁 使 用 ”的 精确 含义 ? 数据 工程 师 利 用 DRAM 和 磁盘 访问 之 间 的 开销 比率 对 频 
繁 使 用 页 的 重用 时 间 阔 值 进 行 量化 。 磁 盘 访 问 的 开销 是 $Diskvaccesses_per_sec， 将 页 保存 在 
DRAM 中 的 开销 是 $DRAM_MiB/page_size。 在 某 些 年 代 中 ， 上 典型 的 DRAM 和 磁盘 开销 、 典 型 的 


数据 库 页 大 小 如 下 表 所 示 : 
| 贡 大 小 (KiB) | 磁盘 开销 ( $/disk) | 磁盘 访问 来 (访问 / 秒 ) 
1 15 





















1987 ] 5 000 15 000 | 
1997 2 000 | 64 
2007 80 83 





[10] <5.1，5.7> 对 于 这 三 种 技术 时 代 ， 重 用 时 间 阔 值 是 多 少 ? 

[10] <5.7 > 如 果 我 们 保持 使 用 相同 的 4K 大 小 的 页 ， 重 用 时 间 阔 值 是 多 少 ? 这 里 趋势 是 什么 ? 
[20] <5.7> 为 了 保持 使 用 相同 的 页 大 小 〈 因 此 避免 软件 重 写 ) ， 其 他 方面 应 该 如 何 变化 ? 讨论 
与 当前 技术 和 成 本 趋势 的 相似 性 。 

如 5.7 节 所 述 ， 虚 拟 存储 器 使 用 一 个 页 表 来 追踪 虚拟 地 址 到 物理 地 址 之 间 的 映射 。 这 个 练习 说 
明了 当地 址 被 访问 时 ， 页 表 如 何 更 新 。 下 表 是 在 一 个 系统 上 所 看 见 的 虚拟 地 址 流 。 假 设 4KiB 的 
页 ,一 个 4 项 的 全 相 联 TLB ， 使 用 严格 的 LRU 替换 算法 。 如 果 必 须 从 磁盘 中 取 回 页 ， 那 么 增加 
下 一 次 能 取 的 最 大 页 数 : 


4669, 2227, 13916, 34587, 48870, 12608, 49225 























1 11 12 
1 4 
1 3 | 6 
0 4 9 
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S. 11. 1 


5.11.2 


5.11.3 


5.11.4 


5.11.5 


5.11.6 


5.12 





页 表 


ET 哲理 责 /在 中 上 























[10] <5.7 > 根据 给 出 的 地 址 流 ， 以 及 TLB 、 页 表 的 初始 状态 ， 请 给 出 系统 的 最 终 状 态 。 对 于 每 
次 访问 ， 请 列 出 是 否 在 TLB 中 命中 ， 是 否 在 页 表 中 命中 或 是 发 生 缺 页 

[15] <5.7 > 重复 练习 题 5. 11. 1， 但 是 这 次 使 用 16KiB 的 页 来 代替 4KiB 的 页 。 使 用 更 大 的 页 的 
好 处 有 哪些 ? 缺点 又 有 哪些 ? 

[15] <5.4，5.7 > 如 果 使 用 两 路 组 相 联 的 TLB， 请 指出 TLB 中 最 终 的 内 容 。 如 果 TLB 是 直接 映 
射 的 ， 同 样 指出 TLB 中 最 终 的 内 容 。 讨 论 使 用 TLB 来 获得 高 性 能 的 重要 性 。 如 果 没 有 TLB， 那 
么 如 何 处 理 虚拟 存储 器 访问 ? 

有 一 些 参数 对 页 表 整 个 大 小 会 有 影响 。 下 面 就 列 出 一 些 关键 的 页 表 参 数 。 


地址 位 页 表 项 的 大 小 
人 4 


[5] <5.7 > 已 知 上 表 中 的 参数 ， 一 个 系统 用 了 一 半 的 内 存 来 运行 5 个 应 用 程序 ， 计 算 该 系统 使 
用 的 页 表 总 大 小 。 

[10] <5.7 > 已 知 上 表 中 的 参数 ， 一 个 系统 用 了 一 半 的 内 存 来 运行 5 个 应 用 程序 ， 给 定 一 个 两 级 
的 有 256 项 的 页 表 ， 计算 该 系统 使 用 的 页 表 总 大 小 。 假 设 主页 表 中 每 项 是 6 字 节 ， 计 算 所 需 的 
最 小 和 最 大 的 内 存 容量 。 

[10] <5.7 > 一 名 cache 设计 者 要 将 一 个 4KiB 的 虚拟 索引 、 物 理 标记 的 cache 的 容量 增 大 ,已 知 
页 的 大 小 在 上 表 中 列 出 ， 那 么 能 否 构 建 一 个 16KiB 的 直接 映射 cache， 假 设 块 大 小 为 2 个 字 ? 设 
计 者 如 何 增加 cache 的 数据 大 小 ? 

在 这 个 练习 中 ,我们 将 研究 对 页 表 进 行 空间 /时 间 的 优化 。 下 表 是 一 个 虚拟 存储 器 系统 的 参数 。 





各 所 地 址 (人 大 小。 | PTE 大 小 ( 字 池 
on | kn | 


[10] <5.7 > 对 于 一 个 单 级 页 表 ， 需要 多 少 页 表 项 (PTE)? 存放 页 表 需 要 多 少 物理 存储 器 ? 
[10] <5.7 > 使 用 多 级 页 表 可 以 降低 物理 存储 器 中 页 表 的 消耗 ， 它 在 物理 存储 器 中 只 保存 活跃 的 
PTE。 这 种 情况 下 ， 需 要 多 少 级 的 页 表 ? 如 果 TLB 缺失 ， 地 址 转换 需要 访问 多 少 次 存储 器 ? 
[15] <5.7> 反 置 页 表 可 以 用 来 进一步 优化 空间 和 时 间 。 存 放 页 表 需 要 多 少 PTE? 假设 执行 一 个 
哈 希 表 ， 当 TLB 缺失 时 ， 在 正常 情况 下 和 最 差 情况 下 的 存储 器 访问 次 数 分 别 是 多 少 ? 

下 表 是 一 个 有 4 项 内 容 的 TLB: 


保护 位 








491 





492 


493 


336 





S. 12. 4 
5S.12. 5S 


5.12.6 
5.13 


5.14.1 
5.14.2 


5.14.3 


[5] <5.7 > 在 什么 样 的 情况 下 第 二 项 的 有 效 位 被 置 为 0? 

[5] <5.7 > 当 一 条 指令 写 人 虚拟 地 址 页 号 为 30 处 时 ,会 发 生 什么 情况 ?什么 时 候 软 件 管理 的 
TLB 比 硬件 管理 的 TLB 速度 快 ? 

[5] <5.7 > 当 一 条 指令 写 人 虚拟 地 址 页 200 时 ， 会 发生 什么 情况 ? 

在 这 个 练习 中 ， 我 们 将 研究 替换 策略 是 如 何 影 响 缺失 率 的 。 假 设 一 个 有 4 个 块 的 2 路 组 相 联 
cache。 你 会 发 现 画 表 对 于 解决 练习 题 中 的 问题 很 有 帮助 ， 如 下 面 的 示范 ， 地 址 序列 为 “0，1， 
2 











被 访问 的 主 存 cache 块 的 内 容 
Es 
ge | eee 本 
| 





























考虑 如 下 的 地 址 序列 : 0, 2, 4, 8, 10, 12, 14, 16, 0。 

[5] <5.4，5. 8 > 假定 使 用 LRU 替换 策略 ， 在 这 组 地 址 序列 中 有 多 少 次 命中 ? 

[5] <5.4,5. 8 > 假定 使 用 MRU (最 近 最 常 使 用 ) 蔡 换 策略 ， 在 这 组 地 址 序列 中 有 多 少 次 命中 ? 
[5] <5.4，5.8 > 通过 掷 硬币 来 模拟 随机 替换 策略 。 例 如 , “正面 ”表示 逐 出 组 中 第 一 块 , “ 反 
面 ”表示 逐 出 组 中 第 二 块 。 在 这 组 地 址 序列 中 有 多 少 次 命中 ? 

[10] <5.4, 5.8 > 为 了 最 大 化 命中 次 数 ， 每 次 替换 时 哪个 块 应 该 被 逐 出 ? 如 果 使 用 了 这 个 “最 
优 的 ”策略 ， 在 这 组 地 址 序列 中 有 多 少 次 命中 ? 

[10] <5.4，5. 8 > 请 说 明 为 什么 实现 这 种 对 所 有 地 址 序列 来 说 都 是 最 优 的 cache 替换 策略 很 难 ? 
[10] <5.4，5.8 > 假设 在 每 次 主 存 引用 时 ， 可 以 决定 被 请 求 的 地 址 是 否 要 被 缓存 ， 这 对 缺失 率 
有 什么 影响 ? 

为 了 支持 多 虚拟 机 ， 需 要 对 两 级 存储 器 进行 虚拟 化 。 每 个 虚拟 机 依然 控制 从 虚拟 地 址 (VA) 
到 物理 地 址 (PA) 之 间 的 映射 ,同时 管理 程序 将 每 个 虚拟 机 的 物理 地 址 (PA) 映射 到 实际 的 
机 器 地 址 (MA)。 为 了 加 速 映射 过 程 ， 一 种 被 称 为 “影子 分 页 ”( shadow paging) 的 软件 方法 
在 管理 程序 中 复制 了 每 个 虚拟 机 的 页 表 ， 并 且 侦 听从 虚拟 地 址 到 物理 地 址 的 映射 变化 ， 以 保 
证 两 个 副本 的 一 致 性 。 为 了 消除 影子 页 表 (shadow page table) 的 复杂 性 ,一 种 被 称 为 区 套 页 
表 (nested page table，NPT) 的 硬件 方法 可 以 支持 两 种 页 表 (VA 二 PA 和 PA 一 MA)， 并且 完 
全 依靠 硬件 来 查找 这 些 表 。 

考虑 下 面 的 操作 序列 : (1) 创建 进程 ; (2) TLB 缺失 ; (3) 缺 页 ; (4) 上 下 文 切换 。 

[10] <5.6，5.7 > 对 于 给 定 的 操作 序列 ， 对 影子 页 表 和 散 套 页 表 分 别 会 发 生 什么 情况 ? 

[10] <5.6，5.7 > 假设 一 个 基于 x86 架构 的 4 级 页 表 同 时 存放 在 客户 页 表 ( guest page table) 和 
在 套 页 表 中 ， 那 么 在 处 理 本 地 页 表 (native page table) TLB 缺失 和 蔗 套 页 表 TLB 缺失 时 ， 分 别 
需要 多 少 次 存储 器 访问 ? 

[15] <5.6,5.7 > 在 TLB 缺失 率 、TLB 缺失 延迟 、 缺 页 率 、 缺 页 处 理 延 迟 之 间 ， 对 影子 页 表 来 
说 ， 哪 些 度 量 标准 更 重要 ? 而 对 于 肉 套 页 表 来 说 ， 哪 些 度量 标准 更 重要 ? 

下 表 是 影子 分 页 系统 的 参数 。 


1 000 条 指令 诬 套 页 表 TLB 1006 条 指令 
每 1 000 条 指令 谋 套 页 表 ed 影子 页 缺失 代价 
TLB 缺失 数 缺失 延迟 缺 页 数 

0.2 


200 个 时 钟 周期 0. 001 30 000 个 时 钟 周期 
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5. 15. 1 


5. 15.2 


5.15.3 


5.15.4 


5.16 


[10] <5.6 > 一 个 基准 测试 程序 的 本 地 执行 CPI 为 1， 如 果 使 用 影子 页 表 ，CPI 是 多 少 ? 如 果 使 
用 嵌 套 页 表 (假设 只 有 页 表 虚 拟 化 开销 ) ，CPI 是 多 少 ? 

[10] <5.6> 使 用 什么 技术 可 以 减少 影子 页 表 所 带 来 的 开销 ? 

[10] <5.6> 使 用 什么 技术 可 以 减少 嵌 套 页 表 所 带 来 的 开销 ? 

广泛 使 用 虚拟 机 最 大 的 障碍 之 一 是 运行 虚拟 机 所 导致 的 执行 开销 。 下 表 列 出 了 不 同 的 性 能 参数 
和 应 用 程序 行为 。 


对 客户 Q/S | 对 VMM 执行 | 每 10000 条 IO 访问 时 间 


基本 的 CBI | 指令 申 特 和 DO7S| 执行 trap 中断 | trap 中 断 的 “| ”指令 中 1O | (包括 trap 中 断 
的 性 能 影响 。 | 。 性 能 影响 请 问 次 数 。 | 客户 O7S 的 时 间 ) 


1.5 120 15 个 时 钟 周期 | 175 个 时 钟 周期 1 100 个 时 钟 周期 








[10] <5.6 > 对 上 面 列 出 的 系统 计算 CPI， 假 设 没 有 VO 访问。 如 果 VMM 性 能 影响 加 倍 ，CPI 是 
多 少 ? 如 果 减 半 呢 ? 如 果 一 个 虚拟 机 软件 公司 希望 获得 10% 的 性 能 损失 ， 那 么 对 VMM 执行 trap 
中 断 的 最 长 的 时 间 代价 是 多 少 ? 

[10] <5.6 >LO 访问 对 系统 整体 性 能 有 着 很 大 的 影响 。 使 用 上 面 性 能 特征 值 的 机 器 的 CPI， 假 
设 是 非 虚 拟 化 的 系统 。 如 果 使 用 虚拟 化 的 系统 ，CPI 又 是 多 少 ? 如 果 系 统 中 WO 访问 减 半 ， 那 么 
这 些 CPI 如 何 变化 ”请 解释 为 什么 VO 限制 性 应 用 受 虚拟 化 影响 很 小 。 

[30] <5.6，5.7 > 比较 并 对 比 虚拟 存储 器 和 虚拟 机 的 概念 。 各 自 的 目标 是 什么 ? 各 自 的 利弊 是 
什么 ? 列 出 一 些 需要 虚拟 存储 器 的 情况 ， 以 及 一 些 需 要 虚拟 机 的 情况 。 

[20] <5.6 >5.6 节 讨 论 了 虚拟 化 ， 其 中 假设 虚拟 化 的 系统 和 底层 硬件 运行 相同 的 SA。 然 而 ， 
虚拟 化 的 一 种 可 能 的 用 途 是 对 非 本 地 的 ISA 进行 仿真 。QEMU 就 是 这 样 一 个 例子 ， 可 以 用 来 仿 
真 多 种 ISA， 如 MIPS、SPARC 以 及 PowerPC。 与 这 种 虚拟 化 相关 的 一 些 难点 是 什么 ?被 模拟 的 
系统 可 能 比 在 本 地 ISA 上 运行 得 更 快 吗 ? 

在 这 个 练习 中 ， 我 们 将 研究 处 理 器 cache 控制 器 中 带 写 缓冲 器 的 控制 单元 。 可 以 使 用 图 5-40 的 
有 限 状态 机 作为 设计 有 限 状态 机 的 出 发 点 。 假 设 cache 控制 器 适用 于 5. 9 节 图 5-40 所 描述 的 简 
单 的 直接 映射 cache， 但 是 需要 增加 一 个 写 缓冲 器 ， 其 容量 为 1 个 块 。 

回忆 一 下 ， 写 缓冲 器 的 目的 是 用 来 临时 存储 ， 因 此 处 理 器 在 发 生 脏 块 缺失 时 就 不 用 等 待 两 次 存 
储 器 访问 。 比 起 在 读 新 的 块 之 前 就 写 回 脏 块 ， 写 缓冲 器 缓存 了 脏 块 并 且 立 即 开始 读 新 的 块 。 而 
脏 块 随后 被 写 人 主 存 ， 同 时 处 理 器 也 在 工作 。 

[10] <5.8，5.9 > 如 果 处 理 器 发 出 一 个 请 求 并 且 在 cache 中 命中 ， 同 时 一 个 块 将 从 写 缓冲 器 被 
写 回 到 主 存 ， 此 时 会 发 生 什么 ? 

[10] <5.8，5.9 > 如果 处 理 器 发 出 一 个 请 求 并 且 在 cache 中 缺失 ， 同 时 一 个 块 将 从 写 缓冲 器 被 
写 回 到 主 存 ， 此 时 会 发 生 什 么 ? 

[30] <5.8，5.9 > 设计 一 个 能 够 使 用 写 缓 冲 器 的 有 限 状态 机 。 

cache 一 致 性 考虑 的 是 多 个 处 理 器 看 到 的 是 同一 个 cache 块 。 下 表 显 示 了 两 个 处 理 器 以 及 它们 对 
一 个 cache 块 X 中 两 个 不 同 字 的 读 / 写 操作 (初始 值 X[0] =X[1] =0) 。 假 定 整数 为 32 位 。 


ng P2 
7 








[15] <5. 10 > 当 执行 一 个 正确 的 cache 一 致 性 协议 时 ， 列 出 给 定 cache 块 可 能 的 值 。 如 果 协 议 没 
有 保证 cache 一 致 性 ， 至 少 列 出 一 个 cache 块 可 能 的 值 。 

[15] <5. 10 > 对 于 监听 协议 ， 列 出 每 个 处 理 器 /cache 完成 上 面 的 读 / 写 操作 时 正确 的 操作 顺序 。 
[10] <5. 10 > 在 最 好 和 最 差 情况 下 ， 完 成 列 出 的 读 / 写 指令 ，cache 缺失 次 数 分 别 是 多 少 ? 

存储 器 一 致 性 考虑 的 是 看 到 的 多 个 数据 项 。 下 表 显 示 了 两 个 处 理 器 以 及 它们 对 不 同 的 cache 块 
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S. 18. 3 


S. 18. 4 


5. 18. 5 


S. 18.6 
S. 19 


S. 19.1 


S. 19.2 


的 读 / 写 操 作 (A 和 B 的 初始 值 为 0) 。 











L15] <5.10 > 若 使 用 5. 10 节 列 出 的 保证 一 致 性 协议 的 假设 ， 请 列 出 C 和 D 的 值 。 

[15] <5. 10 > 如 果 假设 不 成 立 ， 那 么 至 少 列 出 一 对 C 和 D 可 能 的 值 。 

[15] <5.3，5. 10 > 对 于 写 策略 和 写 分 配 策略 的 多 种 组 合 ， 哪 些 组 合 可 以 简化 协议 的 执行 ? 

单 芯 片 多 处 理 器 ( chip multiprocessor，CMP) 在 单个 芯片 上 有 多 个 核 和 cache。 设 计 CMP 的 片上 
二 级 cache 时 都 会 进行 权衡 。 下 表 列 出 了 两 个 基准 测试 程序 在 私有 二 级 cache 和 共享 二 级 cache 
中 的 缺失 率 和 命中 延迟 。 假 设 每 32 条 指令 发 生 一 次 一 级 cache 缺失 。 


WR 和 有 








基准 测试 程序 A 的 每 指令 缺失 | 0.30% | 0. 12% 
基准 测试 程序 B 的 每 指令 缺失 0.06% 0.03% 
下 表 列 出 了 命中 延迟 ;: 











5 20 180 


[15] <5. 13 > 对 于 每 个 基准 测试 程序 ， 哪 种 cache 设计 更 好 ? 请 用 数据 来 支持 你 的 结论 。 
[15] <5. 13 > 共享 cache 的 延迟 随 着 CMP 规模 的 增长 而 增长 。 如 果 共 享 cache 的 延迟 加 倍 ， 请 
选 出 最 好 的 设计 。 当 CMP 中 核 的 数量 增加 时 ， 片 下 带宽 就 变 成 瓶颈 ， 如 果 片 下 存储 器 访问 延迟 
加 倍 ， 请 选 出 最 好 的 设计 。 
[10] <5. 13 > 讨论 共享 二 级 cache 和 私有 二 级 cache 对 于 执行 单线 程 、 多 线程 以 及 多 道 程序 负载 
时 的 利弊 情况 ; 如果 还 有 片上 三 级 cache， 请 重新 考虑 这 些 问 题 。 
[15] <5. 13 > 假设 两 个 基准 测试 程序 的 基本 CPI 都 为 1 (理想 的 二 级 cache) 。 如 果 使 用 非 阻塞 
cache 能 将 同时 发 生 二 级 cache 缺失 的 平均 次 数 从 1 提升 到 2， 那么 当 使 用 共享 二 级 cache 时 ， 性 
能 能 提升 多 少 ? 如 果 是 私有 二 级 cache， 性 能 又 能 达到 多 少 ? 
[10] <5. 13 > 假设 新 一 代 的 处 理 器 每 18 个 月 处 理 器 核 的 数量 就 会 翻 倍 。 为 了 保证 每 个 核 的 性 能 
处 于 相同 水 平 ， 那 么 一 个 3 年 后 的 处 理 器 需要 多 少 片 下 存储 器 带宽 ? 
[15] <5. 13 > 考虑 整个 存储 器 层次 结构 ， 哪 种 优化 可 以 改进 同时 发 生 的 缺失 数量 ? 
在 这 个 练习 中 ， 我 们 介绍 了 网 络 服务 器 日 志 的 定义 ， 并 且 为 了 改进 日 志 处 理 速度 ， 我 们 对 代码 
优化 进行 了 研究 。 日 志 的 数据 结构 定义 如 下 : 
struct entry { 

int SrcIP; // remote IP address 

char URL[128]; // request URL (e.g., “GET index.html”) 

long long refTime; // reference time 

int status; // connection status 


char browser[64]; // client browser name 
} 1og [NUM_ENTRIES]; 


假定 日 志 的 处 理 函 数 如 下 : 


topK_sourceIP (int hour) 


[5] <5. 15 > 对 于 给 定 的 日 志 处 理 函数 ， 在 一 个 日 志 项 中 哪些 字段 将 被 访问 ? 假设 cache 块 为 64 
字 节 ， 没 有 预 取 ， 那 么 给 定 的 函数 平均 每 个 项 会 引发 多 少 次 cache 缺失 ? 
[10] <5.15 > 为 了 改善 cache 的 应 用 和 局 部 访问 ， 你 会 如 何 重新 组 织 数据 结构 ? 请 给 出 结构 代 
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5S. 19. 3 


5S. 19. 4 


5S. 19. 5 


5.19.6 








码 定 义 。 

[10] <5. 15 > 请 举例 说 明 另 一 种 不 同 数据 结构 的 日 志 处 理 函 数 。 如 果 两 个 函数 都 很 重要 ， 为 了 
改进 整体 性 能 ， 将 如 何 重 写 程 序 ? 补充 对 代码 片段 和 数据 的 讨论 。 

对 于 下 面 的 问题 ， 每 对 基准 测试 程序 使 用 的 数据 来 自 “SPEC CPU2000 基准 测试 程序 测 出 的 
cache 性 能 ” (http :和 www. cs. wisc. edu/ multifacet/misc/spec2000cache-data/) ， 如 下 表 所 示 。 


esa 7 gce 
ner 7 swin 


[10] <5. 15 >64KiB 的 数据 cache 使 用 不 同 的 组 相 联 度 ， 对 于 每 个 基准 测试 程序 ， 每 种 缺失 类 型 
(强制 、 容 量 和 冲突 缺失 ) 相应 的 缺失 率 分 别 是 多 少 ? 

[10] <5. 15 > 为 两 个 基准 测试 程序 共享 的 一 级 数据 cache 选择 组 相 联 度 ， 其 中 cache 大 小 为 
64KiB。 如 果 一 级 cache 是 直接 映射 的 ， 那 么 为 1MiB 的 二 级 cache 选择 组 相 联 度 。 

[20] <5. 15 > 请 列举 一 个 缺失 率 表 的 例子 说 明 较 高 的 相 联 度 实际 上 能 增加 缺失 率 。 并 构建 一 个 
cache 配置 以 及 访问 流 来 给 出 证 明 。 
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5.1 


5.3 


5.4 


5.7 
5.8 


1 和 4。(3 是 错误 的 ， 因 为 每 个 计算 机 的 存储 器 层次 结构 的 开销 是 不 同 的 ， 但 是 在 2013 年 开销 
最 高 的 通常 是 DRAM 。) 

1 和 4。 更 低 的 缺失 代价 可 以 允许 使 用 更 小 的 cache 块 ， 因 为 没有 更 多 的 延迟 ; 而 更 高 的 存储 带 
宽 通常 导致 更 大 的 块 ， 因 为 缺失 代价 只 是 稍微 大 了 一 些 。 

1。 

1-a, 2-c,3-b, 4-d。 

2。( 大 容量 的 块 和 预 取 都 能 降低 强制 缺失 ， 因 此 1 是 错误 的 。) 
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从 客户 端 到 云 的 并 行 处 理 器 








多 处 理 器 和 集群 


我 挥 毒 着 大 樟 ， 用 尽 一 切 力 量 ， 我 要 各 获得 区 大 的 成 功 ， 要 么 一 败 涂 地 。 我 喜欢 活 得 很 洒脱 。 
一 一 Babe Rit， 半 图 棒 球 运动 员 


6.1 引言 


“在 月 球 的 山脉 上 ， 沿 着 天 有 影 乱 困 的 山谷 ， 前 进 ， 勇 艇 的 前 进 !” 妆 影 回旋 道 
一 一 “ 几 果 你 在 寻找 理想 国 1” 
一 一 读 德 加 ， 爱 伦 : 坡 , (理想 图 》， 第 4 和 凶 ，1849 


计算 机 设计 者 一 直 在 寻求 计算 机 设计 的 “黄金 之 城 ” (El Dorado) : 只 需 将 现 有 的 多 个 较 
小 计算 机 简单 地 连接 在 一 起 来 构成 功能 强大 的 计算 机 。 这 就 是 多 处 理 器 (multiprocessor) 产生 
的 根源 。 在 理想 情况 下 ， 用 户 可 以 按照 自己 的 支付 能 力 购买 足够 多 的 处 理 器 ， 从 而 获得 对 应 数 
量 的 性 能 。 因 而 ， 多 处 理 器 软件 必须 设计 为 能 在 不 同 数量 处 理 器 的 情况 下 工作 。 如 第 1 章 所 
述 ， 无论 是 数据 中 心 还 是 微 处 理 器 ， 功 耗 已 经 成 为 一 个 首要 问题 。 在 软件 可 以 有 效 地 使 用 每 个 
处 理 器 的 情况 下 ， 用 很 多 小 型 高 性 能 处 理 器 代替 大 型 低 效能 处 理 器 ， 可 在 每 单位 焦耳 上 获得 更 
高 的 性 能 。 这 样 ， 对 多 处 理 器 而 言 ， 可 以 通过 可 伸缩 的 性 能 来 提高 功效 。 


多 处 理 器 : 至 少 含有 两 个 处 理 器 的 计算 机 系统 。 与 之 对 应 的 概念 是 单 处 理 器 (uniproces- 
sor) ， 它 仅 念 一 个 处 理 器 。 


由 于 多 处 理 器 软件 支持 可 变数 量 的 处 理 器 ， 并 且 一 些 设计 支持 在 受 损 硬件 上 正常 工作 ; 也 
就 是 说 ， 如 果 在 包含 ”个 处 理 器 的 多 处 理 器 系统 中 有 一 个 处 理 器 失效 ， 该 系统 将 继续 使 用 -1 
个 处 理 器 提供 服务 。 因 此 ， 多 处 理 器 也 提高 了 可 用 性 〈 见 第 5 章 )。 

高 性 能 意味 着 处 理 单独 一 个 任务 时 的 高 吞吐 量 ， 这 被 称 作 任务 级 并 行 (task-level parallelism ) 
或 进程 级 并 行 (process-level parallelism) 。 这 些 任 务 是 独立 的 单线 程 应 用 程序 ， 这 在 多 处 理 器 计 
算 机 中 非常 重要 并 且 普 遍 使 用 。 与 之 相对 的 方法 是 在 多 个 处 理 器 上 运行 一 个 作业 。 我 们 使 用 术语 
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并 行 处 理 程序 (parallel processing program) 来 表示 同时 运行 在 多 个 处 理 器 上 的 单一 程序 。 


任务 级 并 行 或 进程 级 并 行 : 通过 同时 运行 独立 程序 的 方法 来 利用 多 处 理 器 。 
并 行 处 理 程序 : 同时 运行 在 多 个 处 理 器 上 的 单一 程序 。 


在 过 去 数 十 年 里 ， 很 多 科学 问题 都 需要 更 快 的 计算 机 ， 同 时 这 些 问题 也 用 于 评价 新 型 的 并 
行 计算 机 。 这 些 问 题 中 有 些 在 今天 处 理 起 来 很 简单 ， 使 用 由 封装 在 不 同 独立 服务 器 上 的 多 个 微 
处 理 右 组 成 的 集群 (cluster) 即 可 完成 计算 ( 见 6.7 节 )。 除 了 科学 问题 以 外 ， 集 群 还 可 以 运 
行 对 等 请 求 应 用 程序 ， 如 搜索 引擎 、Web 服务 器 、 电 子 邮件 服务 器 和 数据 库 。 


全 集群: 通过 局 域 网 连接 的 一 组 计算 机 ， 其 作用 等 同 于 一 个 大 型 的 多 处 理 器 。 


如 第 1 章 所 述 ， 多 处 理 器 因 功 耗 问题 已 成 为 研究 焦点 ， 未 来 处 理 器 性 能 的 提高 显然 不 再 是 
依赖 更 高 的 主 频 和 改进 CPI， 而 是 借助 于 硬件 并 行 。 就 像 我 们 在 第 1 章 所 看 到 的 ， 为 了 避免 名 
称 上 的 元 长 ， 称 为 多 核 微 处 理 器 ( multicore microprocessor) 而 不 是 多 处 理 器 微 处 理 器 。 因 此 ， 
处 理 器 在 多 核 芯 片 内 一 般 称 为 核 (core) 。 核 的 数量 预计 以 摩尔 定律 (Moore’s Law) 增长 。 这 
些 多 核 处 理 器 通常 都 是 共享 内 存 处 理 器 ( shared memory processor，SMP) ， 因 为 它们 通常 共享 
一 个 单独 的 物理 地 址 空间 。 我 们 会 在 6. 5 节 更 深入 地 讨论 SMP。 


多 核 微 处 理 器 : 在 单一 集成 电路 上 包含 多 个 处 理 器 ( “ 核 ”) 的 微 处 理 器 。 基 本 上 目前 所 
有 的 台式 机 和 服务 器 都 是 多 核 微 处 理 器 。 
共享 内 存 处 理 器 : 共享 一 个 物理 地 址 空间 的 并 行 处 理 器 。 


当今 的 技术 意味 着 关心 性 能 的 编程 人 员 必 须 成 为 并 行 编程 的 程序 员 ， 因 为 串 行程 序 就 意味 
着 速度 慢 的 程序 。 

业界 面临 的 巨大 挑战 是 如 何 构建 易于 正确 编写 并 行 处 理 程序 的 软 硬 件 系统 ， 不 仅 程序 能 够 
有 效 执行 ， 而 且 性 能 和 功 耗 可 以 随 着 单 芯 片 内 核 的 数量 而 相应 改变 。 

微 处 理 融 设 计 的 这 种 突然 转变 导致 很 多 设计 人 员 措 手 不 及 ， 因 而 会 有 很 多 关于 微 处 理 器 设计 
方面 的 术语 及 其 内 涵 的 困惑 。 图 6-1 试图 阐述 串 行 (serial) 、 并 行 (parallel) 、 顺 序 (sequential) 
和 并 发 (concurrent) 等 术语 之 间 的 差异 。 该 图 中 的 每 一 列 代表 固有 顺序 或 并 发 的 软件 ， 每 一 行 表 
示 串 行 或 并 行 的 和 硬件。 例如， 编写 编译 器 的 程序 员 认为 编译 器 是 顺序 程序 ， 因 为 编译 的 主要 过 程 
包含 分 析 、 代 码 生 成 和 优化 等 。 与 之 相反 ， 编 写 操作 系统 的 程序 员 一 般 认 为 操作 系统 是 并 发 程 
序 ， 因 为 操作 系统 需要 协同 处 理 一 个 计算 机 中 多 个 独立 作业 产生 的 各 种 VO 事件 。 
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t》 


在 Intel Pentium4 上 运行 的 使 用 在 Intel Pentium4 ER 
Matlab 编 写 的 矩阵 乘法 Windows Vista 操作 系统 





在 Intel Core i7 上 运行 的 使 用 在 Intel Core i7 上 运行 的 
Matlab 编写 的 矩阵 乘法 Windows Vista 操作 系统 








图 6-1 ， 硬 /软件 分 类 以 及 若干 并 发 应 用 程序 与 并 行 硬件 的 对 比 实例 
图 6-1 说 明了 以 下 两 点 : 第 一 ， 并 发 软件 可 以 运行 于 串 行 硬件 上 (如 操作 系统 可 以 运行 在 
Intel Pentium 4 单 处理 器 上 ) ， 也 可 以 运行 于 并 行 硬件 上 (如 操作 系统 可 以 运行 在 Intel Core 这 
上 ); 第 二 ， 反 过 来 顺序 软件 也 是 类 似 的 ， 如 Matlab 程序 员 认 为 矩阵 乘 是 顺序 执行 的 ， 但 是 它 
可 以 串 行 地 在 Intel Pentium 4 上 运行 ， 也 可 以 并 行 地 在 Intel Core i7 上 运行 。 
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也 许 你 会 认为 并 行 的 唯一 挑战 是 如 何 使 一 个 固有 顺序 执行 的 软件 在 并 行 硬件 上 获得 更 高 性 
能 ， 但 实际 上 如 何 让 并 发 程序 在 多 处 理 器 上 随处 理 器 数量 增加 而 提高 性 能 也 是 一 个 难点 。 为 了 
加 以 区 别 ， 本 章 后 面 的 部 分 使 用 并 行 处 理 程序 (parallel processing program) 或 并 行 软件 
(parallel software) 表示 运行 在 并 行 硬件 上 的 顺序 软件 或 并 发 软件 。 本 章 下 一 节 讲 述 为 什么 很 难 
编写 高 效 的 并 行 处 理 程序 。 

在 进一步 讨论 并 行 方法 之 前 ， 我 们 需要 回顾 一 下 前 面 章节 的 下 述 内 容 : 

。 第 2 章 ，2.11 节 : 并 行 与 指令 : 同步 。 

。 第 3 章 ，3.6 节 : 并 行 性 和 计算 机 算术 : 子 字 并 行 。 

。 第 4 章 ，4. 10 节 : 指令 级 并 行 。 

e 第 5 章 ，5. 10 节 : 并 行 与 存储 器 层次 结构 : cache 一 致 性 。 


邯 ] 小 测验 
是 非 判 断 题 为 了 从 多 处 理 器 获得 好 处 ， 应 用 程序 必须 是 并 发 的 。 


6.2 创建 并 行 处 理 程序 的 难点 


并 行 的 难点 不 在 于 硬件 ， 而 是 目前 只 有 极 少量 重要 的 应 用 程序 经 过 重新 编写 后 能 在 多 处 理 
器 上 ， 从 而 获得 更 快 的 执行 时 间 。 事 实 上 ， 在 多 处 理 器 上 编写 程序 来 提高 执行 效率 很 困难 ， 而 
且 随 着 处 理 器 数量 的 增加 会 变 得 更 加 困难 。 

为 什么 会 这 样 呢 ? 为 什么 并 行 处 理 程序 相对 于 顺序 程序 更 加 难 开发 呢 ? 

首要 原因 是 必须 使 用 并 行 处 理 程序 才能 在 多 处 理 器 上 获取 更 高 性 能 或 功 耗 利 用 率 ; 否则 ， 就 
只 能 在 单 处 理 器 上 使 用 顺序 程序 ， 因 为 编写 顺序 程序 相对 较 简单 。 事 实 上 ， 单 处 理 器 设计 技术 
(如 超标 量 和 乱 序 执行 ) 充分 利用 了 指令 级 并 行 〈 见 第 4 章 ) ， 而 且 通 常 不 需要 程序 员 的 介入 。 这 
些 技术 不 需要 改写 程序 ， 因 此 程序 员 不 做 任何 事情 就 可 以 在 新 的 计算 机 上 获得 更 高 性 能 。 

为 什么 编写 更 快 的 并 行 处 理 程序 非常 困难 (尤其 是 让 执行 速度 可 随处 理 器 数量 的 增加 而 增 
加 )? 在 第 1 章 中 我 们 打 了 个 比方 让 8 个 记者 同时 编写 同一 故事 ,希望 获得 8 倍 的 速度 完成 
该 项 工作 。 为 了 实现 目标 ， 任 务必 须 被 分 解 为 等 量 的 8 份 ， 否 则 会 有 一 些 记 者 处 于 空闲 状态 等 
待 其 他 工作 量 较 大 的 人 员 完 成 任务 。 另 外 一 个 影响 性 能 的 障碍 是 记者 们 必须 花费 大 量 时间 进 行 
互相 交流 ， 而 不 是 专心 编写 自己 所 负责 的 那 部 分 故事 。 无 论 是 这 个 类 比 还 是 并 行 编程 ， 都 要 面 
临 如 下 挑战 : 调度 、 将 任务 分 割 成 可 并 行 的 部 分 ， 负 载 均 衡 、 同 步 时 间 和 通信 开销 。 而 且 ， 相 
对 于 使 用 更 多 记者 完成 一 篇 新 闻 报 道 ， 使 用 多 处 理 器 完成 并 行 编程 要 复杂 得 多 。 

我 们 在 第 1 章 中 还 讨论 了 另外 一 个 障碍 ， 即 Amdahl 定律 。 它 提示 我 们 为 了 充分 利用 多 核 ， 
程序 中 任何 一 个 很 小 的 部 分 都 需要 并 行 化 。 


印 ] 例题 .加速 比 的 挑战 
如 果 希 望 在 100 个 处 理 器 上 获得 加 速 比 90， 请 问 原始 计算 中 最 多 有 多 少 可 以 是 顺序 执行 
的 呢 ? 
本 | 答案 
根据 第 1 章 描述 的 Amdahl 定律 : 
改进 后 的 执行 时 间 = 受 改 进 影响 的 执行 时 间 /改进 量 + 未 受 改 进 影响 的 时 间 
使 用 加 速 比 的 形式 重新 表示 Amdahl 定律 : 
加 速 比 = 改进 前 的 执行 时 间 /( (改进 前 的 执行 时 间 - 受 影响 的 执行 时 间 ) 
+ 受 影响 的 执行 时 间 / 改进 量 ) 
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该 公式 通常 被 改写 为 假定 改进 前 的 执行 时 间 为 1 个 时 间 单 元 的 形式 ， 受 改进 影响 的 执行 时 
间 可 以 视 作 与 原始 执行 时 间 的 比值 : 
加 速 比 = 1/((1 - 受 影响 的 执行 时 间 比 例 ) + 受 影响 的 执行 时 间 比 例 / 改进 量 ) 
将 加 速 比 蔡 换 为 90， 将 改进 量 蔡 换 为 100， 代 和 人 人 上述 公 式 中 : 
90 = 1/((1 -=- 受 影响 的 执行 时 间 比 例 ) + 受 影 响 的 执行 时 间 比 例 /100) 
然后 简化 该 公式 并 对 受 影响 的 执行 时 间 比 例 进 行 求解 : 
90 x (1 -0.99 x 受 影响 的 执行 时 间 比 例 ) = 1 
90 - (90 x 0.99 x 受 影响 的 执行 时 间 比 例 ) = 1 
90 -1 = 90 x0.99 x 受 影响 的 执行 时 间 比 例 
受 影响 的 执行 时 间 比 例 = 89/89. 1 = 0.999 
因此 ,为 了 在 100 个 处 理 器 上 获得 加 速 比 90， 顺 序 执行 部 分 最 多 占 0. 1% 。 
然而 ， 还 是 有 大 量具 有 固有 并 发 特征 的 应 用 程序 。 四 | 
图 ! 例题 * 加 速 比 的 挑战 : 更 大 规模 的 问题 
执行 两 个 加 法 : 一 个 加 法 是 10 个 标量 的 求 和 ， 另 一 个 加 法 是 一 对 10 x 10 二 维和 矩阵 的 求 
和 。 我 们 目前 假设 只 有 和 矩阵 求 和 可 以 并 行 化 ， 以 后 会 看 到 如 何 对 标量 求 和 进行 并 行 化 。 使 用 
10 个 和 40 个 处 理 器 达到 的 加 速 比分 别 是 多 少 呢 ? 如 果 和 矩阵 维 数 是 20 x20 呢 ? 


四 答案 
我 们 假定 性 能 是 加 法 时 间 : 的 函数 ， 并 且 假 定 有 10 次 加 法 不 能 从 并 行 处 理 器 中 获 益 ，100 次 
加 法 可 以 获 益 。 如 果 在 单 处 理 器 上 的 执行 时 间 为 110:， 那 么 在 10 个 处 理 器 上 的 执行 时 间 是 
改进 后 的 执行 时 间 = 受 改 进 影响 的 执行 时 间 / 改进 量 + 未 受 影响 的 执行 时 间 
改进 后 的 执行 时 间 = 100t10 + 10! = 20: 
所 以 使 用 10 个 处 理 器 的 加 速 比 是 110i/20: =5.5。 使 用 40 个 处 理 器 的 执行 时 间 是 
改进 后 的 执行 时 间 = 100i40 + 10t = 12.5t 
所 以 使 用 40 个 处 理 器 的 加 速 比 是 110i/12. 5: =8.8。 因 此 ， 对 于 该 问题 规模 ， 我 们 使 用 10 
个 处 理 器 达到 了 潜在 加 速 比 的 55% ,但 是 使 用 40 个 处 理 咒 仅 达 到 了 潜在 加 速 比 的 22% 。 
当 增 大 和 矩阵 规模 时 会 发 生 什么 。 顺 序 程序 的 执行 时 间 为 10: + 400t =410t。10 个 处 理 器 的 
执行 时 间 是 
改进 后 的 执行 时 间 = 400i/10 + 10t = 50i 
所 以 10 个 处 理 器 的 加 速 比 是 410t50L = 8.2。40 个 处 理 器 的 执行 时 间 是 
改进 后 的 执行 时 间 = 400i/40 + 10t = 20i 
所 以 40 个 处 理 器 的 加 速 比 是 4101/201 = 20.5。 因 此 ， 对 于 较 大 的 问题 规模 ， 我 们 使 用 10 
个 处 理 器 获得 了 大 约 82% 的 潜在 加 速 比 ， 使 用 40 个 处 理 器 获得 了 超过 51% 的 潜在 加 速 比 。 口 


这 些 例 子 说 明 为 了 在 多 处 理 器 上 获得 更 高 加 速 比 ， 保 持 问题 规模 不 变相 对 于 增加 问题 规模 
会 更 加 困难 。 为 此 我 们 引入 两 个 术语 来 描述 按 比 例 缩 放 的 方式 。 

强 比 例 缩放 (strong scaling) 指 保持 问题 规模 固定 所 测 得 的 加 速 比 。 弱 比例 缩放 (weak 
scaling) 指 问题 规模 随处 理 器 数量 按 比 例 增加 所 获得 的 加 速 比 。 假 定 问 题 规模 M 是 主 存 中 的 工 
作 集 ， 处 理 器 数量 为 P， 那 么 每 个 处 理 器 所 占用 的 内 存 对 于 强 比例 缩放 大 约 是 MOP， 对 于 弱 比 
例 缩放 大 约 是 M。 


仿 “ 强 比例 缩放 : 在 多 处 理 器 上 不 需 增加 问题 规模 即 可 获得 的 加 速 比 。 
必 弱 比 例 缩放 : 在 多 处 理 器 上 增加 处 理 器 数量 的 同时 按 比例 增加 问题 规模 所 能 获得 的 加 
速 比 。 
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注意 ， 传 统 认 知 认为 弱 比 例 缩放 会 比 强 比例 缩放 简单 ， 但 是 存储 器 层次 结构 可 能 对 这 一 传 
统 认 知 产生 影响 。 例 如 ， 如 果 弱 比例 缩放 数据 组 不 再 适用 于 多 核 微 处 理 器 高速 缓 冲 存储 器 的 最 
后 一 层 ， 会 导致 系统 的 性 能 比 使 用 强 比 例 缩放 更 加 糟糕 。 

可 根据 不 同 的 应 用 程序 选择 不 同 的 比例 缩放 方法 。 例 如 ，TPC-C 借贷 数据 库 基准 测试 程序 
需要 按 与 每 分 钟 内 的 事务 处 理 次 数 成 比例 地 增加 客户 数量 。 这 是 因为 如 果 银 行 装备 了 更 快 的 计 
算 机 ， 我 们 也 不 能 假定 客户 从 此 以 后 每 天 使 用 100 次 ATM， 很 明显 这 是 没有 实际 意义 的 。 因 
此 ， 如 果 和 希望 证 明 系统 可 以 将 每 分 钟 内 处 理 的 事务 次 数 提高 100 倍 ,应 当 在 顾客 数量 提高 100 
倍 的 情况 下 进行 实验 。 更 大 规模 的 问题 需要 更 多 的 数据 ， 这 是 弱 缩放 方法 的 特征 。 

最 后 一 个 例子 说 明了 负载 均衡 的 重要 性 。 


图 上 例题 * 加 速 比 的 挑战 : 负载 均衡 

在 上 个 例子 中 ,我 们 使 用 40 个 处 理 器 在 较 大 问题 规模 中 实现 了 加 速 比 20.5， 其 中 假定 了 
负载 是 完全 均衡 的 。 也 就 是 说 ，40 个 处 理 器 中 每 一 个 都 完成 2.5% 的 工作 。 事 实 上 ， 如 果 一 个 
处 理 器 的 负载 高 于 其 他 处 理 器 ， 则 加 速 比 会 受到 影响 。 请 计算 其 中 一 个 处 理 咒 完成 两 倍 于 负载 
(5% ) 和 五 倍 于 负载 (12. 5% ) 时 的 加 速 比 。 对 于 其 他 处 理 器 的 利用 率 如 何 ? 


oo 答案 
如 果 一 个 处 理 器 负责 5% 的 并 行 负载 ， 那 么 它 需 要 完成 5 多 乘 以 400， 即 20 次 加 法 ， 其 他 的 39 
个 处 理 器 分 担 剩 余 的 380 次 加 法 。 由 于 它们 是 同时 运算 的 ， 我 们 可 以 取 两 者 工作 时 间 的 最 大 值 。 
改进 后 的 执行 时 间 = Max(380t/39,201/1) + 10t = 301 
加 速 比 从 20. 5 降低 至 410i/30i =14。 剩 下 的 39 个 处 理 器 的 利用 率 不 及 原来 的 一 半 : 当 等 
待 任务 最 重 的 处 理 器 完成 204， 它 们 只 执行 了 380t39 =9.71。 
如 果 一 个 处 理 器 完成 12. 5% 的 负载 ， 它 必须 执行 50 次 加 法 。 公 式 为 : 
改进 后 的 执行 进 间 = Max(350i/[39 ,50tM1) + 10! = 60; 
加 速 比 进一步 降低 至 410i/60:; =7。 其 余 的 处 理 器 的 利用 率 不 到 (91/501) 的 20% 。 这 个 例子 
说 明了 负载 均衡 的 重要 性 : 仅 在 一 个 处 理 器 的 负载 是 其 他 处 理 器 的 两 倍 时 ， 加 速 比 几 乎 降低 了 三 
分 之 一 ; 一 个 处 理 器 的 负载 是 其 他 处 理 器 的 5 倍 时 ， 加 速 比 几乎 降低 到 了 原来 的 三 分 之 一 。 口 


现在 我 们 对 并 行 处 理 的 目标 和 挑战 有 了 更 好 的 理解 ， 我 们 在 这 里 给 出 本 章 后 面 内 容 的 一 个 概 
览 。 下 一 节 (6.3 节 ) 介绍 了 一 个 比 图 6-1 更 古老 的 分 类 方法 。 另 外 ， 该 节 也 给 出 了 两 种 可 以 使 
串 行程 序 运 行 在 并 行 硬件 上 的 指令 集 ， 即 单 指令 多 数据 指令 (SIMD) 和 向 量 指令 (vector)。 
6.4 节 介 绍 了 多 线程 (multithreading) ， 这 个 概念 常常 容易 与 多 进程 (multiprocessing) 混淆 ， 一 部 
分 原因 是 由 于 它们 都 依赖 于 程序 中 相似 的 并 行 性 。6. 5 节 介 绍 了 基本 并 行 硬件 的 两 种 类 型 ， 它 们 
的 区 别 在 于 系统 中 所 有 处 理 器 是 否 采用 单一 的 物理 地 址 。 这 两 种 类 型 的 常见 形式 分 别 是 共享 存储 
多 处 理 器 (shared memory multiprocessor) 和 集群 (cluster)， 而 该 节 讲 述 的 是 前 者 。6.6 节 介 绍 了 
一 种 来 自 图 形 硬 件 处 理 领 域 的 相对 较 新 的 计算 机 ， 称 为 图 形 处 理 单元 (GPU)， 它 同样 是 共享 一 
个 物理 地 址 空间 的 。( 附录 C 更 详细 地 介绍 了 GPU) 。6.7 节 介 绍 了 集群 ， 这 是 使 用 多 个 物理 地 址 
空间 的 一 个 很 常见 的 例子 。6. 8 节 介绍 了 将 多 个 处 理 器 〈 可 以 是 集群 中 的 多 个 服务 节点 ， 也 可 以 
是 微 处 理 器 中 的 多 个 核 ) 链接 起 来 的 分 类 方法 。6. 9 节 介绍 了 通过 以 太 网 使 集群 中 的 多 个 节点 进 
行 通信 的 硬件 和 软件 。 该 节 展 示 了 如 何 使 用 用 户 软件 和 硬件 优化 性 能 。 我 们 接 下 来 在 6. 10 节 探 讨 
了 寻找 并 行 测试 集 程序 的 困难 。 该 节 也 包含 了 一 个 简单 但 是 很 有 启发 意义 的 性 能 模型 ， 这 个 模型 
可 用 于 辅助 应 用 程序 及 体系 结构 的 设计 。 在 6. 11 节 ,， 我 们 同时 使 用 该 模型 和 并 行 测试 集 程序 对 一 
个 多 核 计算 机 和 一 个 GPU 进行 比较 。6. 12 节 展 示 了 加 速 矩 阵 乘法 这 一 旅程 的 最 后 也 是 最 庞大 的 
一 个 步骤 。 对 于 无 法 在 cache 中 放下 的 和 矩阵， 使 用 16 个 核 的 并 行 处 理 得 到 14 倍 的 性 能 加 速 。 本 
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章 最 后 解析 了 一 些 常 见 雇 误 和 陷阱 ， 并 进行 了 总 结 。 
在 下 一 节 ， 我 们 介绍 代表 不 同类 型 的 并 行 计算 机 的 英文 首 字母 缩写 ， 这 些 你 可 能 以 前 已 经 见 过 了 。 
著 ) 小 测验 


是 非 判 断 : 强 比例 缩放 不 遵守 Amdahl 定律 。 
6.3 SISD、MIMD、SIMD、SPMD 和 向 量 机 


20 世纪 60 年 代 提 出 了 并 行 硬件 的 一 种 分 类 方法 ， 并 且 一 直 沿 用 至 今 。 该 分 类 基于 指令 流 
的 数量 和 数据 流 的 数量 。 图 6-2 给 出 了 该 分 类 方法 。 这 样 ， 常 规 的 单 处 理 器 具有 单一 的 指令 流 
和 单一 的 数据 流 ， 而 常规 的 多 处 理 器 具有 多 个 指令 流 和 多 个 数据 流 。 这 两 种 类 别 分 别称 为 
SISD 和 MIMD 。 


全 SISD: 单 指令 流 单数 据 流 的 单 处 理 器 。 
忆 MIMD: 多 指令 流 多 数据 流 的 多 处 理 器 。 


| 
ee 
指令 流 SISD: Intel Pentium 4 SIMD: x86 的 SSE 指令 
人 MISD， 至今 没有 实例 MIMD: Intel Core i7 
图 6-2 基于 指令 流 和 数据 流 数 量 的 硬件 分 类 和 实例 : SISD、SIMD、MISD 和 MIMD 


Ce 
完成 一 个 共同 的 大 型 目标 。 但 是 编程 人 员 通 常 仅 编写 单一 程序 ， 将 其 运行 在 MIMD 计算 机 的 所 
和 处理 时 上 然后 使 用 条 件 控制 语句 使 不 同 的 处 理 器 执行 不 同 的 代码 段 。 这 种 风格 被 称 作 单 程 
序 多 数据 (single program multiple data，SPMD) ， 它 是 MIMD 计算 机 编程 的 正常 方式 。 


> SPMD， 单程 序 多 数据 流 。 传 统 的 MIMD 编程 模型 ， 其 中 一 个 程序 运行 在 所 有 处 理 器 之 上 。 


最 接近 多 指令 流 单数 据 流 (MISD) 的 处 理 器 应 该 算是 “ 流 处 理 器 ”了 ， 流 处 理 器 在 流水 
线 中 对 一 个 单独 的 数据 流 执行 一 系列 计算 : 从 网 络 中 解析 输入 ， 分 析 数 据 ， 解 压 数据 ， 查 找 匹 
配 ， 等 等 。 相 反 ，SIMD 更 常见 一 些 。SIMD 计算 机 对 向 量 数 据 进 行 操作 。 例 如 ， 一 个 单一 的 
SIMD 指令 可 以 把 64 个 数 相 加 ， 只 需要 把 64 个 数据 流 发 送 到 64 个 ALU， 就 可 以 在 一 个 时 钟 周 
期 内 得 到 64 个 和 。 我 们 在 3.6 节 和 3.7 节 中 见 到 的 子 字 并 行 指令 是 另 一 个 SIMD 的 例子 ; 实际 
上 ，Intel 的 SSE 中 的 第 二 个 $ 就 代表 SIMD 。 


2 SIMD: 单 指令 流 多 数据 流 。 同 样 的 指令 在 多 个 数据 流 上 操作 ， 和 在 向 量 处 理 器 中 的 一 样 。 


SIMD 的 优点 是 所 有 并 行 执行 单元 都 是 同步 的 ， 它 们 都 对 源 自 同一 程序 计数 器 (PC) 的 同 
一 指令 作出 响应 。 从 程序 员 的 角度 来 看 ， 非 常 接近 于 已 经 熟悉 的 SISD。 尽 管 每 个 单元 都 执行 相 
同 指令 ， 但 是 每 个 执行 单元 都 有 自己 的 地 址 寄存 器 ， 这 样 每 个 单元 都 有 不 同 的 数据 地 址 。 因 
此 ， 根 据 图 6-1， 一 个 顺序 应 用 程序 编译 后 可 能 运行 于 串 行 硬件 上 并 按 SISD 组 织 ， 也 可 能 运行 
于 并 行 硬件 上 按 SIMD 组 织 。 

SIMD 的 初衷 是 在 几 十 个 执行 单元 之 间 均 摊 控 制 单元 成 本 。 另 外 一 个 优点 是 降低 指令 宽度 
和 空间 一 一 SIMD 只 需要 同时 执行 代码 的 一 个 副本 ， 而 消息 传递 的 MIMD 可 能 需要 在 每 个 处 理 
器 都 有 一 份 副本 ， 共 享 存储 器 MIMD 可 能 需要 多 个 指令 缓存 。 
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SIMD 在 使 用 for 循环 语句 处 理 数 组 时 最 为 有 效 。 因 此 ， 为 了 在 SIMD 中 并 行 工 作 ， 必 须 
有 大 量 相 同 结构 的 数据 ， 一 般 称 之 为 数据 级 并 行 (data-level parallelism) 。SIMD 在 使 用 case 
或 switch 语句 时 效率 最 低 ， 此 时 每 个 执行 单元 必须 根据 不 同 的 数据 执行 不 同 的 操作 。 带 有 错 
误 数据 的 执行 单元 必须 被 握 弃 ， 而 带 有 正确 数据 的 执行 单元 将 继续 执行 。 若 有 nn 个 case， 
SIMD 处 理 器 将 会 以 最 高 1/n 的 性 能 运行 。 


2 数据 级 并 行 ， 对 不 同 数据 执行 相同 操作 所 获得 的 并 行 。 


激发 了 SIMD 类 型 产生 的 阵列 处 理 器 正 逐 渐 成 为 历史 〈 见 网 站 上 的 6. 15 节 ) ， 但 是 直到 现 
在 SIMD 的 两 种 表示 依然 并 存 。 


6.3.1 在 x86 中 的 SIMD: 多 媒体 扩展 


正如 第 3 章 所 述 ， 在 1996 年 ， 对 于 罕 位 宽 整 型 数据 的 子 字 并 行 化 激发 了 x86 指令 集中 的 多 
媒体 扩展 ( MMX) 指令 的 产生 。 随 着 摩尔 定律 的 发 展 ， 加 入 了 更 多 的 指令 ,产生 了 最 初 的 SSE 
扩展 ， 现 在 为 AVX 扩展 。AVX 支持 同时 执行 4 个 64 位 的 浮 点 数据 。 操 作 和 寄存 器 的 位 宽 编码 
到 多 媒体 指令 的 操作 码 中 。 随 着 操作 和 寄存 器 位 宽 的 变 大 ， 多 媒体 指令 的 操作 码 数 量 也 在 增 
加 ， 现 在 已 经 有 数 百 条 SSE 和 AVX 指令 ( 见 第 3 章 )。 


6.3.2 向 量 机 


SIMD 的 一 个 更 加 古老 和 优雅 的 称呼 是 向 量 体 系 结构 ， 它 几乎 等 同 于 西 摩 克 雷 (Seymour 
Cray) 在 20 世纪 70 年 代 制 造 的 计算 机 。 向 量 机 结构 与 具有 大 量 数据 并 行 的 问题 非常 匹配 。 除 
了 具有 64 个 ALU 可 以 同时 计算 64 次 加 法 之 外 ， 与 早期 的 阵列 处 理 器 类 似 ， 向 量 体 系 结构 将 
ALU 流水 化 ， 从 而 在 低 成 本 下 获得 高 性 能 。 向 量 体 系 结构 的 基本 理念 是 从 存储 器 中 收集 数据 
元 ， 并 将 它们 按 顺 序 放 到 一 大 组 寄存 器 中 ， 然 后 在 寄存 器 中 使 用 流水 化 的 执行 单元 对 它们 依次 
操作 ， 最 后 将 结果 写 回 存储 器 。 向 量 体 系 结构 的 关键 特征 是 拥有 一 组 向 量 寄存 器 。 这 样 ， 向 量 
体系 结构 可 能 拥有 32 个 向 量 寄存 器 ， 每 个 寄存 器 包含 64 个 64 位 宽 的 数据 元 。 


图! 例题 * 向 量 机 与 常规 处 理 器 在 代码 上 的 区 别 

假设 我 们 基于 MIPS 指令 集体 系 结构 进行 扩展 ， 增 加 向 量 指令 和 向 量 寄存 器 。 向 量 操作 的 
名 称 与 MIPS 原 有 操作 相同 ,但 是 在 其 后 增加 一 个 字母 “V”。 例 如 ，aqgv .da 表示 将 两 个 双 精 
度 向 量 相 加 。 向 量 指令 的 输入 可 以 是 一 对 向 量 寄存 器 (addv.d) ， 也 可 以 一 个 是 向 量 寄存 器 
一 个 是 标量 寄存 器 (addvs .d)。 对 于 后 者 ,标量 寄存 器 的 值 被 用 于 所 有 操作 的 输入 一 一 
addvs .d 操 作 将 会 把 标量 寄存 器 的 内 容 加 到 向 量 寄 存 器 中 每 个 数据 元 上 。 关 键 词 lv 和 sv 分 
别 代 表 向 量 的 读 人 和 写 回 ， 它 们 完成 整个 双 精 度数 据 向 量 的 读 和 人 或 写 回 。1Lv 和 sv 的 一 个 操作 
数 是 要 读 人 或 写 回 的 向 量 寄存 器 ; 另 一 个 操作 数 是 一 个 MIPS 的 通用 寄存 器 ， 用 来 给 出 向 量 在 
存储 器 中 的 起 始 地 址 。 在 简要 说 明之 后 ， 我 们 看 下 面 的 一 小 段 代 码 如 何 从 常规 的 MIPS 代码 转 
换 成 向 量 MIPS 代码 : 

= 

其 中 XX 和 Y 是 64 位 双 精 度 浮 点 数 的 向 量 ， 并 且 最 初 保 存在 存储 器 中 ; a 是 一 个 双 精 度 标量 。 
(这 个 例子 就 是 所 谓 的 DAXPY 循环 ， 其 构成 了 Linpack 基准 测试 程序 的 内 部 循环 。DAXPY 表示 
double precision a x plus Y。) 假定 和 了 的 起 始 地 址 分 别 保存 在 $s0 和 $sl 中 。 
加】 答案 


针对 DAXPY 的 常规 MIPS 代码 是 : 


1ad $f0,a($sp) :10ad scalar a 


addiu $t0,$s0,#512 :upper bound of what to load 
loop: 1.d $f2,0($s0) :10ad x(i) 
mul.d $f2,$f2,$f0 #6 XETY., 
1.d $f4,0($s1) :10ad y(i) 
add.d $f4,$f4,$f2 :a x x(i) + y(i) 
s.d $f4,0($s1) :Store into y(i) 
addiu $s0,$s0,#8 :increment index to x 
addiu $s1,$s1 ,#8 :increment index to y 
subu $tl,$t0,$s0 :Compute bound 
bne $t1,$zero,100p :check if done 
针对 DAXPY 的 向 量 MIPS 代码 是 : 
1.d $f0,a($sp) :load scalar a 
lv $v1,0($s0) :load vector x 
mulvs.d $v2,$v1,$f0 :Vector-scalar multiply 
lv $v3,0($s1) :load vector y 
addv.d $v4,$v2,$v3 :add y to product 
SV $v4,0($s1) :store the result 口 


针对 上 面 两 段 代 码 有 几 点 值得 注意 。 最 引 人 注 目的 是 向 量 处 理 器 大 大 降低 了 动态 指令 带宽 
需求 ， 仅 用 6 条 指令 就 完成 了 接近 600 条 MIPS 指令 的 工作 。 降 低 的 原因 一 是 向 量 操作 是 在 64 
个 数据 元 上 同时 进行 的 ， 二 是 MIPS 中 接近 一 半 开 销 的 循环 指令 在 向 量 机 代码 中 不 存在 了 。 正 
如 你 所 想 的 一 样 ， 取 指 和 执行 次 数 的 降低 也 会 节省 能 耗 。 

另外 一 个 重要 的 不 同 点 是 流水 线 相 关 的 频率 〈 见 第 4 章 ) 。 在 我 们 直接 编写 的 MIPS 代码 
中 ,每 个 add.d 必须 等 待 mul.d， 并 且 每 个 s.d 必须 等 待 add.d, 另外 每 个 add.d 和 
mul . d 必 须 等 待 1.d。 在 向 量 处 理 器 中 ， 每 条 向 量 指令 只 会 在 每 个 向 量 的 起 始 数据 元 阻塞 ， 在 
随后 的 数据 元 都 会 顺畅 地 通过 流水 线 。 因 此 ， 流 水 线 阻塞 在 每 次 向 量 操作 时 只 会 发 生 一 次 ， 而 
不 是 每 次 对 向 量 数据 元 进行 操作 时 都 会 发 生 一 次 。 在 这 个 例子 中 ，MIPS 中 的 流水 线 阻 塞 频 率 


大 约 比 MIPS 的 向 量 版 本 高 64 倍 。 当 然 ，MIPS 可 以 采用 循环 展开 技术 降低 流水 线 阻塞 频率 


( 见 第 4 章 ), 但 是 指令 带宽 的 巨大 差异 是 无 法 减 小 的 。 

由 于 向 量 元 素 是 相互 独立 的 ， 它 们 可 以 并 行 地 执行 ， 很 像 AVX 指令 的 子 字 并 行 。 现 在 所 
有 的 向 量 计 算 机 都 带 有 多 个 并 行 流水 线 〈 称 为 向 量 通道 ， 见 图 6-2 和 图 6-3) 的 向 量 功 能 单元 ， 
每 个 流水 线 在 一 个 时 钟 周 期 可 以 产生 两 个 甚至 更 多 的 结果 。 


著 ] 精 解 上 面 的 例子 中 循环 次 数 恰好 等 于 向 量 长 度 。 当 循环 次 数 更 小 时 ， 向 量 体 系 结构 可 以 
使 用 降低 向 量 操作 长 度 的 寄存 器 。 当 循环 次 数 更 大 时 ， 我 们 可 以 增加 记录 代码 来 迭代 全 长 
度 向 量 操作 ， 最 后 处 理 剩 余部 分 。 后 面 的 处 理 过 程 称 作 条 状 开发 法 (strip mining) 。 


6. 3. 3 向量 与 标量 的 对 比 


与 常规 的 指令 集体 系 结构 (本 部 分 将 其 称 为 标量 体系 结构 ) 相 比 ， 向 量 指令 具有 几 个 重 
要 的 属性 : 

。 一 条 向 量 指令 指定 了 大 量 需 要 完成 的 工作 一 一 它 等 价 于 执行 一 个 循环 。 因 而 对 取 指 和 
译 码 带宽 的 需求 显著 降低 了 。 

。 通过 使 用 向 量 指令 ， 编 译 器 或 程序 员 隐 含 指明 向 量 中 每 个 结果 的 计算 与 同一 向 量 中 其 
他 结果 的 计算 是 不 相关 的 ， 因 而 硬件 无 需 检 查 一 条 向 量 指令 内 的 数据 相关 。 

。 相对 于 MIMD 多 处 理 器 ， 包 含 数据 级 并 行 的 应 用 程序 采用 向 量 体 系 结构 和 编译 器 能 够 
更 加 容易 地 编写 高 效 代码 。 
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。 硬件 只 需 在 两 条 向 量 指令 之 间 对 每 个 向 量 操作 数 检查 一 次 数据 相关 ， 而 不 是 对 向 量 内 
每 个 数据 元 检查 一 次 。 相 关 检 查 次 数 的 降低 也 会 使 得 能 耗 降低 。 
访问 存储 器 的 向 量 指令 具有 确定 的 存 取 模 式 。 如 果 向 量 的 每 个 元 素 的 地 址 都 是 连续 的 ， 
那么 从 一 组 交叉 存储 器 组 中 取 回 一 个 向 量 将 会 很 快 。 因 此 ， 对 整个 向 量 而 言 ， 主 存 延 
迟 的 开销 看 上 去 只 有 一 次 ， 而 不 是 对 向 量 中 每 个 字 都 有 一 次 。 
因为 整个 循环 用 具有 预定 义 行为 的 向 量 指令 所 替换 ,循环 转移 所 引起 的 控制 相关 就 不 存在 了 。 
。 节省 的 指令 带宽 和 相关 检查 以 及 存储 器 带宽 的 有 效 使 用 ， 使 得 向 量 体 系 结构 在 能 耗 方 
面 优 于 标量 体系 结构 。 
由 于 这 些 原 因 ， 在 同样 的 数据 量 前 提 下 ， 向 量 操作 比 一 组 标量 操作 序列 更 快 ， 并 且 如 果 应 
用 程序 可 以 频繁 使 用 这 些 向 量 操作 ， 就 会 促使 设计 者 加 入 向 量 单元 。 


6. 3.4 ”向 量 与 多 媒体 扩展 的 对 比 


与 x86 AVX 多 媒体 指令 扩展 类 似 ， 向 量 指令 可 以 指定 多 种 操作 。 然 而 ， 多 媒体 扩展 一 般 仅 
指定 几 种 操作 ， 而 向 量 可 以 指定 几 十 种 操作 。 与 多 媒体 扩展 不 同 的 是 ， 向 量 操作 中 分 量 的 数量 
不 在 操作 码 中 ， 而 是 在 一 个 单独 的 寄存 器 中 。 这 个 区 别 意味 着 不 同 版 本 的 向 量 体 系 结构 只 需 修 
改 该 寄存 器 的 值 ， 就 能 够 实现 不 同 的 分 量 数量 ， 并 且 能 够 保持 二 进 制 代码 的 兼容 性 。 相 比 之 
下 ,在 x86 的 多 媒体 扩展 体系 结构 中 (MMX、SSE、SSE2、AVX、AVX2 、…) ， 每 次 “向 量 ” 
长 度 改变 时 都 需要 加 入 大 量 新 的 操作 码 。 

还 有 一 点 与 多 媒体 扩展 不 同 ， 数 据 传输 不 必 是 连续 的 。 向 量 同 时 支持 按 步 长 存 取 (strided ac- 
cess) 和 变 址 存 取 (indexed access)， 前 者 是 硬件 每 隔 n 个 存储 器 中 的 数据 元 读 取 一 次 ， 后 者 是 按 
照 数据 项 地 址 读 取 到 向 量 寄存 器 中 。 变 址 存 取 也 称 作 聚 集 分 散 (gather= scatter) ， 变 址 的 读 取 操作 
将 内 存 中 的 数据 元 素 聚 集成 连续 的 向 量 元 素 ， 变 址 的 存储 操作 将 向 量 元 素 分 散 到 内 存 中 。 

与 多 媒体 扩展 类 似 ， 向 量 机 可 以 灵活 地 支持 不 同 数据 宽度 ， 因 此 它 既 可 以 在 32 个 64 位 数 
据 上 进行 向 量 操作 ， 也 可 以 在 64 个 32 位 数据 、128 个 16 位 数据 或 者 256 个 8 位 数据 上 进行 向 
量 操 作 。 向 量 指令 的 并 行 特 性 可 以 使 其 采用 深度 流水 的 功能 单元 、 并 行 功能 单元 阵列 或 并 行 功 
能 单元 与 流水 功能 单元 的 组 合 来 实现 。 图 6-3 说 明了 如 何 采用 并 行 流水 线 执行 一 条 向 量 加 法 指 
令 来 提高 向 量 的 性 能 。 


回回 
| 一 
oo | 所 
he | 人 


>|> 
ID| 
edi | 








图 6-3 使 用 多 个 功能 单元 来 提升 单个 向 量 加 法 指令 ，C = A + B。 左 侧 的 向 量 处 理 器 有 一 条 加 法 流水 线 ， 
并 且 可 以 在 一 个 周期 完成 加 法 操作 。 右 侧 的 向 量 处 理 器 有 4 条 加 法 流水 线 ， 并 且 可 以 在 一 个 周 
期 完成 4 条 加 法 操作 。 一 条 向 量 加 法 指令 的 数据 元 素 被 分 又 地 放 到 4 个 通道 中 


向 量 算 术 运 算 指令 通常 只 允许 一 个 向 量 寄存 器 的 元 素 N 与 另 一 个 向 量 寄存 器 的 元 素 N 进 
行 计算 。 通 过 多 个 向 量 通道 (vector lane) 的 方式 构建 高 度 并 行 化 的 向 量 单元 ， 极 大 地 简化 了 
高 度 并 行 化 的 向 量 单元 的 实现 。 由 于 有 高 速 的 通道 ， 我 们 可 以 通过 增加 更 多 的 通道 数量 来 提高 
向 量 单元 的 最 大 吞吐 率 。 图 6-4 展示 了 一 个 四 通道 的 向 量 单元 的 结构 。 因 此 ， 通 过 将 通道 数 从 
一 个 增 至 4 个 ， 使 每 条 向 量 指令 的 周期 数 减少 了 大 约 4 倍 。 由 于 多 通道 具有 优势 ， 故 应 用 程序 
和 体系 结构 都 必须 支持 长 向 量 。 和 否则 ， 指 令 会 很 快 地 执行 完毕 却 得 不 到 新 的 指令 去 执行 ， 而 去 
要 求 像 第 4 章 介绍 的 指令 级 并 行 提供 足够 的 向 量 指令 。 


人 ”向量 通道 : 一 个 或 多 个 向 量 功能 单元 与 一 部 分 向 量 寄 存 器 。 由 为 提高 交通 流量 的 高 速 公路 
的 道路 数 启发 而 来 ， 多 个 通道 同时 执行 向 量 操作 。 


通道 通道 通道 2 通道 3 





图 6-4 有 4 个 通道 的 向 量 处 理 器 的 结构 。 向 量 寄 存 器 等 量 地 分 配给 每 个 通道 ， 每 个 通道 所 占有 的 寄 
存 器 直接 相隔 为 4。 图 中 画 出 了 三 个 向 量 功能 单元 : 一 个 浮 点 加 法 器 、 一 个 浮 点 乘法 器 和 一 个 
存 取 单元 。 每 一 个 向 量 算术 单元 都 包含 4 个 执行 流水 线 ， 每 个 通道 一 个 ， 每 条 流水 线 执行 一 
条 指令 。 注 意向 量 寄存 器 的 每 一 部 分 是 如 何 只 需要 为 自己 的 通道 提供 足够 的 读 和 写 端 口 〈 见 
第 4 章 ) 的 


总 的 来 说 ， 向 量 体 系 结构 是 执行 数据 平行 处 理 程序 的 一 种 有 效 途 径 ; 相对 多 媒体 扩展 ， 向 
量 机 与 编译 器 技术 更 加 接近 ; 并 且 相 对 于 对 x86 体系 结构 进行 多 媒体 扩展 ， 向 量 技术 更 加 容易 
随时 间 推 移 而 得 到 不 断 改进 。 

给 出 了 这 些 经 典 的 分 类 方法 ， 我 们 接 下 来 看 看 如 何 发 掘 指令 的 并 行 流 来 提高 一 个 单独 处 理 
器 的 性 能 ， 我 们 还 会 将 该 方法 应 用 到 多 处 理 器 中 。 


团 ! 小 测验 
是 非 判 断 : 以 x86 为 例 ， 多 媒体 扩展 可 以 被 视 作 一 种 采用 短 向 量 的 仅 支 持 顺序 向 量 数据 传 
输 的 向 量 体 系 结构 。 


著 ] 精 解 在 了 解 了 向 量 体 系 结构 如 此 之 多 的 优点 之 后 ,为何 向 量 机 却 没有 在 高 性 能 计算 领域 
之 外 流行 呢 ? 主要 原因 包括 : 向 量 寄存 器 的 巨大 状态 增加 了 上 下 文 切换 时 间 ; 向 量 存 取 产 
生 的 缺 页 故障 难以 处 理 ; SIMD 指令 也 可 以 获得 向 量 指令 的 部 分 优势 。 另 外 ， 只 要 指令 级 
并 行 可 以 提供 摩尔 定律 要 求 的 性 能 提升 ， 就 没有 理由 要 去 改变 体系 结构 的 类 型 。 
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团 | 精 解 向 量 和 多 媒体 扩展 的 另外 一 个 优点 是 一 个 标量 指令 集体 系 结构 更 易于 扩展 ， 从 而 使 
其 提高 数据 并 行 操作 的 性 能 。 

lo 精 解 ”Intel 的 Haswell x86 处 理 器 支持 AVX2 指令 集 ，AVX2 指令 级 只 有 聚集 (gather) 操 
作 而 没有 分 散 (scatter) 操作 。 


6.4 硬件 多 线程 


从 程序 员 的 角度 来 看 ， 硬 件 多 线程 (hardware multithreading) 就 是 一 个 和 MIMD 相关 的 概 
念 。MIMD 依靠 多 个 进程 ( process) 或 线程 〈thread) 来 努力 使 多 个 处 理 器 处 于 忙碌 状态 ， 而 
硬件 多 线程 允许 多 个 线程 以 重 益 的 方式 共享 一 个 处 理 器 的 功能 单元 ， 以 有 效 地 利用 硬件 资源 。 
为 了 支持 共享 ， 处 理 器 必须 为 每 个 线程 复制 独立 的 状态 。 例 如 ， 每 个 线程 必须 拥有 寄存 器 文件 
和 PC 的 独立 备份 。 存 储 器 自身 可 以 通过 虚拟 存储 器 机 制 实现 共享 ， 多 道 程 序 设 计 中 已 经 支持 
这 种 方法 。 此 外 ， 硬 件 必 须 具 有 以 相对 较 快 的 速度 切换 线程 的 能 力 。 需 要 特别 指出 的 是 ， 线 程 
切换 相对 进程 切换 应 该 更 加 有 效 ， 线 程 切换 可 以 是 实时 的 ， 而 进程 切换 一 般 需 要 数 百 个 到 数 千 
个 处 理 器 周期 。 


人 硬件 多 线程 : 在 线程 阻塞 时 处 理 器 可 切换 到 另 一 线程 的 实现 。 

元” 进程: 一 个 进程 包含 一 个 或 多 个 线程 、 地 址 空间 和 操作 系统 。 因 此 一 次 进程 切换 通常 需要 
操作 系统 的 介入 ， 但 是 线程 切换 不 需要 。 

允 线程 : 一 个 线程 包含 程序 计数 器 、 寄 存 器 状态 和 内 存 栈 。 它 是 一 个 轻 量 级 的 进程 ; 多 个 线 
程 通常 共享 一 个 地 址 空间 ， 而 进程 则 不 是 。 


硬件 多 线程 主要 有 两 种 实现 方法 。 细 粒度 多 线程 〈fine-grained multithreading) 在 每 条 指 
令 执 行 后 都 进行 线程 切换 ， 结 果 就 是 在 多 个 线程 之 间 交 叉 执 行 。 这 种 交叉 通常 以 循环 方式 
进行 ， 并 在 循环 时 ， 在 每 个 时 钟 周期 跳 过 处 于 阻塞 状态 的 线程 。 为 了 实现 细 粒 度 多 线程 ， 
处 理 器 必须 能 够 在 每 个 时 钟 周期 进行 线程 切换 。 细 粒度 多 线程 的 一 个 主要 优点 是 可 同时 隐 
藏 由 短 阻塞 和 长 阻塞 引起 的 吞吐 量 损失 ， 因 为 当 一 个 线程 阻塞 时 可 以 执行 其 他 线程 的 指令 。 
细 粒 度 多 线程 的 主要 缺点 是 降低 了 单个 线程 的 执行 速度 ， 因 为 就 绪 状 态 的 线程 会 因为 其 他 
线程 而 延迟 执行 。 


全 “ 细 粒度 多 线程 : 硬件 多 线程 的 一 种 形式 ， 每 条 指令 执行 之 后 都 进行 线程 切换 。 


粗 粒 度 多 线程 〈coarse- grained multithreading) 是 细 粒 度 多 线程 的 一 种 蔡 代 方案 。 粗 粒度 多 
线程 仅 在 高 开销 阻塞 时 才 进 行 线程 切换 ， 如 最 后 一 级 缓存 缺失 。 这 种 改变 对 高 速 的 线程 切换 降 
低 了 要 求 ， 并 且 几 乎 不 会 降低 单个 线程 的 执行 速度 ， 因 为 粗 粒 度 多 线程 仅 在 当前 线程 遇 到 高 开 
销 阻 塞 时 才 会 发 射 其 他 线程 的 指令 。 然 而 ， 粗 粒度 多 线程 有 一 个 严重 的 缺点 : 它 在 隐藏 吞吐 量 
损失 的 能 力 方 面 受 限 ， 特 别 是 短 阻 塞 。 这 种 限制 源 自 粗 粒度 多 线程 中 的 流水 线 启动 开销 。 因 为 
粗 粒 度 多 线程 处 理 器 从 单一 线程 发 射 指令 ， 在 阻塞 发 生 时 ， 必 须 清空 或 冻结 流水 线 。 阻 塞 之 后 
开始 执行 的 新 线程 必须 在 指令 能 够 完成 之 前 填充 流水 线 。 由 于 启动 开销 ， 粗 粒度 多 线程 更 加 适 
合用 来 降低 高 开销 阻塞 带 来 的 性 能 损失 ， 因 为 在 这 种 情况 下 ， 与 阻塞 时 间 相 比 ， 流 水 线 重新 填 
充 时 间 是 可 以 忽略 的 。 


2 粗 粒 度 多 线程 硬件 多 线程 的 一 种 形式 ， 仅 在 一 些 重要 事件 (如 最 后 一 级 缓存 缺失 ) 之 
后 进行 线程 切换 。 
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同时 多 线程 ( simultaneous multithreading，SMT) 是 硬件 多 线程 的 一 个 变种 ， 它 使 用 多 发 射 
动态 调度 流水 线 处 理 器 的 资源 来 挖掘 线程 级 并 行 ， 并 同时 保持 指令 级 并 行 〈 见 第 4 章 )。 提 出 
SMT 的 主要 原因 是 在 多 发 射 处 理 器 中 通常 有 单线 程 难以 充分 利用 的 多 个 并 行 功能 单元 。 而 且 ， 
借助 于 寄存 器 重 命名 和 动态 调度 ( 见 第 4 章 ) ， 不 需 考虑 它们 之 间 的 相关 性 即 可 发 射 来 自 不同 
线程 的 多 条 指令 ; 相关 性 的 解决 可 以 由 动态 调度 机 构 来 处 理 。 


> 同时 多 线程 多 线程 的 一 种 形式 ,利用 多 发 射 、 动 态 调度 微 体系 结构 中 的 资源 实现 多 线 
程 ， 从 而 降低 多 线程 的 开销 。 


SMT 依赖 于 现 有 的 动态 机 制 ， 且 不 用 每 个 周期 切换 资源 。 事 实 上 ，SMT 总 是 执行 来 自 多 个 
线程 的 指令 ， 由 硬件 将 指令 槽 和 重 命 名 寄存 器 与 适当 的 线程 关联 起 来 。 


发 射 槽 一 > 
站 图 6-5 4 个 线程 如 何以 不 同方 式 利用 超标 量 
时 间 | Hm 处 理 器 中 的 发 射 槽 。 上 面 的 4 个 线程 
re 理 要 表示 独立 运行 在 不 支持 多 线程 的 标准 
i 超标 量 处 理 器 上 的 情况 。 下 面 给 出 了 
HH 三 个 线程 以 三 种 不 同 多 线程 模式 一 起 
7 执行 时 的 情况 。 水 平方 向 表示 每 个 时 
发 射 梢 一 > ” ，。， 钟 周 期 的 指令 发 射 量 。 垂 直方 向 表示 
粗 粒 多 。 细 粒 度 。 “同时 时 钟 周 期 的 序列 。 空 块 〈 白 块 ) 表示 
多 线程 ”多 线程 多 线程 在 该 周期 没有 利用 相应 的 发 射 槽 。 不 
时 间 时 @ 时 轩辕 轩 呈 呈 同 灰 度 表示 多 线程 处 理 器 中 的 4 个 不 
蔚 要 区 3 | | 
| Ns 同 线程 。 尽 管 粗 粒 度 多 线程 中 额外 的 
ss ”三 三 流水 线 启动 开销 在 本 图 中 没有 标识 ， 
里面 加 。 瑟瑟 本 但 其 会 导致 更 多 的 吞 叶 量 损失 


图 6-5 说 明了 使 用 一 个 处 理 器 的 不 同 配 置 开发 超标 量 资源 的 能 力 上 的 差别 。 上 面 的 部 分 表 
示 4 个 线程 如 何在 不 支持 多 线程 的 超标 量 处 理 器 上 独立 运行 。 下 面 的 部 分 表示 4 个 线程 如 何以 
3 种 不 同 的 多 线程 方式 在 处 理 器 上 更 加 有 效 地 运行 : 

。 支持 粗 粒度 多 线程 的 超标 量 。 

。 支持 细 粒 度 多 线程 的 超标 量 。 

。 支持 同时 多 线程 的 超标 量 。 

在 不 支持 硬件 多 线程 的 超标 量 处 理 器 中 ， 指 令 发 射 槽 的 使 用 受到 指令 级 并 行 性 的 限制 。 而 
且 ， 绝 大 多 数 阻 塞 ， 如 指令 缓存 缺失 ， 会 使 整个 处 理 器 空闲 。 

在 粗 粒 度 多 线程 超标 量 处 理 器 中 ， 通 过 切换 到 其 他 使 用 该 处 理 器 资源 的 线程 可 以 部 
分 隐藏 长 阻塞 。 尽 管 这 能 降低 完全 空闲 的 时 钟 周期 数量 ， 但 是 流水 线 的 启动 开销 仍然 会 
带 来 空闲 周期 ， 并 使 ILP 受到 限制 ， 也 就 是 说 ， 并 非 所 有 发 射 槽 都 能 得 到 有 效 利 用 。 在 细 
粒度 多 线程 中 ， 线 程 的 交叉 执行 几乎 不 会 出 现 发 射 槽 全 空 的 情况 。 但 是 ， 由 于 在 一 个 给 
定 的 时 钟 周期 仅 有 单一 线程 发 射 指令 ， 指 令 级 并 行 的 限制 仍 会 导致 某 些 时 钟 周期 出 现 空 
闲 发 射 槽 。 

在 SMT 中 ， 线 程 级 并 行 和 指令 级 并 行 都 得 到 充分 利用 ， 在 一 个 时 钟 周期 多 个 线程 共同 使 
用 发 射 槽 。 理 想 情 况 下 ， 发 射 模 的 使 用 仅 受 多 个 线程 间 资 源 失衡 和 资源 可 用 性 的 限制 。 实 际 
上 ,还 有 一 些 其 他 因素 限制 可 用 发 射 槽 的 多 少 。 尽 管 图 6-5 大 大 简化 了 这 些 处 理 器 的 真实 操作 
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情况 ,但 是 它 确实 从 整体 上 给 出 了 多 线程 潜在 的 性 能 优势 ， 特 别 是 SMT。 

图 6-6 画 出 了 在 Intel Core 17 960 的 一 个 处 2.00 
理 器 上 运行 多 线程 时 的 性 能 和 能 耗 优 势 ，Itel 
Core i 960 支持 两 个 线程 。 平 均 加 速 比 为 1. 31， 
这 对 于 有 少量 额外 资源 执行 硬件 多 线程 的 情况 
来 说 不 算 坏 。 平 均 能 耗 效 率 提升 为 1.07， 效 果 
很 好 。 总 之 ， 对 于 在 能 耗 不 变 的 前 提 下 性 能 得 
到 了 提升 总 是 使 人 高 兴 的 。 

现在 我 们 看 到 了 如 何 通过 多 个 线程 更 有 效 
地 使 用 一 个 处 理 器 的 资源 ， 接 下 来 看 看 如 何 利 
用 多 线程 来 发 掘 多 处 理 器 的 资源 。 


jo 小 测验 1.00 
1. 是 非 判 断 : 多 线程 和 多 核 都 依赖 并 行 来 
获得 更 高 效率 。 0.75 
2. 是 非 判 断 : 同时 多 线程 (SMT) 使 用 线 





一 
一 
(nm 


i7 SMT 的 性 能 能 耗 效 率 比 
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程 提高 动态 调度 的 乱 序 处 理 器 的 资源 使 《sg eg 区 ep 


用 率 。 
图 6-6 在 订 处理 器 上 的 一 个 核 上 使 用 多 线程 
二 言 运行 PARSEC 测试 集 程序 ( 见 6.9 
6. 5 多 核 和 其 他 共 t 享 内 存 多 处 理 器 节 )， 平均 加 速 比 为 1. 31， 功 耗 效率 提 
尽管 硬件 多 线程 在 很 小 的 代价 下 提升 了 处 天 二 的。 该 数据 最 由 Eestiaeh 等- 


理 器 的 效率 ， 但 在 过 去 的 10 年 中 的 主要 挑战 是 人 
通过 有 效 地 编程 利用 单个 芯片 上 数量 不 断 增长 的 处 理 器 以 使 性 能 以 摩尔 定律 继续 增长 。 

由 于 对 原 有 程序 进行 重 写 ， 使 之 在 并 行 硬件 上 很 好 地 运行 有 困难 ， 一 个 自然 的 问题 是 计算 
机 设计 者 如 何 简化 该 工作 。 一 种 方法 是 为 所 有 处 理 器 提供 一 个 共享 的 单一 物理 地 址 空间 ， 以 便 
程序 不 必 考 虑 它们 的 数据 在 哪里 ， 只 要 知道 程序 能 够 并 行 执行 就 可 以 了 。 在 这 种 方法 中 ,一 
程序 的 所 有 变量 对 其 他 任何 处 理 器 在 任何 时 刻 都 是 可 见 的 。 另 一 种 方法 是 每 个 处 理 器 采用 独立 
的 地 址 空间 ， 则 必须 进行 显 式 共 享 ; 我 们 将 在 6.7 节 描 述 这 种 情况 。 当 物理 地 址 空间 公用 时 ， 
通常 由 硬件 提供 cache 一 致 性 ， 以 便 保证 共享 存储 器 的 一 致 性 (参见 5. 8 节 )。 

综 上 所 述 ， 为 程序 员 提供 跨越 所 有 处 理 器 的 单一 物理 地 址 空间 的 多 处 理 器 称 为 共享 内 存 多 
处 理 器 (SMP) 一 一 对 于 多 核 芯 片 总 是 这 样 一 一 尽管 更 加 准确 的 术语 应 该 是 共享 地 址 多 处 理 器 
( shared-address multiprocessor) 。 处 理 器 通过 存储 器 中 的 共享 变量 互相 通信 ， 所 有 处 理 器 都 能 通 
过 存 取 指令 访问 任何 存储 器 位 置 。 图 6-7 给 出 了 SMP 的 典型 组 成 。 注 意 ， 即 使 这 些 系统 共享 同 
一 个 物理 地 址 空间 ， ee] 自己 的 虚拟 地 址 空间 中 单独 地 运行 程序 。 














| 处理 器 | 处 理 器 
ew |] [am ] a 
互联 网 络 
存储 器 | vo | 


图 6-7 一 个 共享 内 存 多 处 理 器 的 典型 组 成 
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单一 地 址 空间 的 多 处 理 器 有 两 种 类 型 。 第 一 种 类 型 的 访 存 时 间 不 依赖 于 是 哪个 处 理 器 提出 
访 存 请 求 ， 也 无 论 要 访 存 哪个 字 。 这 类 机 器 称 为 统一 存储 访问 ( Uniform Memory Access， 
UMA) 多 处 理 器 。 对 于 第 二 种 类 型 ， 一 些 访 存 请 求 会 比 其 他 的 快 ， 这 取决 于 是 哪个 处 理 器 访 
问 哪个 字 ， 这 是 由 于 主 存 被 分 割 并 分 配给 同一 个 芯片 上 的 不 同 的 处 理 器 或 内 存 控制 器 。 这 类 机 
器 称 为 非 统 一 存储 访问 (Nonuniform Memory Access，NUMA) 多 处 理 器 。NUMA 多 处 理 器 的 编 
程 难度 要 高 于 UMA 多 处 理 器 ,但 NUMA 机 器 可 以 扩展 到 更 大 规模 ， 并 且 NUMA 访问 附近 的 存 
储 器 时 具有 较 低 的 延迟 。 


人 统一 存储 访问 : 无 论 访 存 的 是 哪个 处 理 器 ， 也 无 论 访 存 的 是 哪个 字 ， 访 存 时 间 都 大 致 相同 
的 多 处 理 器 。 

非 统一 存储 访问 : 使 用 单一 地 址 空间 多 处 理 器 的 一 种 类 型 ， 菜 些 存 储 访 存 速度 高 于 其 他 访 
存 ， 访 存 速 度 与 访问 哪个 处 理 器 及 访问 哪个 字 相 关 。 


由 于 处 理 器 并 行 执行 一 般 都 需要 共享 数据 ， 所 以 它们 在 操作 共享 数据 时 需要 进行 协调 ; 否 
则 ， 一 个 处 理 器 可 能 会 在 其 他 处 理 器 尚未 完成 对 共享 数据 的 操作 时 就 开始 使 用 该 数据 了 。 这 种 
协调 称 为 同步 〈synchronization) ， 正 如 我 们 在 第 2 章 看 到 的 。 在 使 用 单一 地 址 空间 支持 的 共享 
时 ， 必 须 提供 一 套 独 立 的 同步 机 制 。 一 种 方法 是 为 每 个 共享 变量 使 用 锁 (lock)。 在 一 个 时 刻 
只 能 有 一 个 处 理 器 获得 锁 ， 其 他 需要 操作 该 共享 数据 的 处 理 器 必须 等 待 ， 直 到 该 处 理 器 解锁 该 
变量 为 止 。 第 2 章 2. 11 节 描 述 了 MIPS 中 关于 锁 操 作 的 指令 。 


同步 : 对 可 能 运行 于 不 同 处 理 器 上 的 两 个 或 者 更 多 进程 的 行为 进行 协调 的 过 程 。 
锁 : 一 个 时 刻 仅 允许 一 个 处 理 器 访问 数据 的 同步 装置 。 


0 


0 《人 )》 


葬 ) 例题 . 一 个 共享 地 址 空间 的 简单 并 行 处 理 程序 

假设 我 们 需要 在 一 个 处 理 器 数量 为 64 的 共享 存储 多 处 理 器 计算 机 上 对 64 000 个 数 求 和 ， 
该 计算 机 具有 统一 的 存储 器 访问 时 间 。 
本 | 答案 

第 一 步 是 保证 每 个 处 理 器 的 负载 是 均衡 的 ， 所 以 我 们 将 这 组 数 分 成 等 量 的 子 集 。 由 于 该 机 
器 具有 单一 的 存储 器 空间 ， 因 此 我 们 不 把 这 些 子 集 分 配 到 不 同 的 存储 器 空间 上 ; 我 们 只 给 每 个 
处 理 器 分 配 不 同 的 起 始 地 址 。 用 Pn 表示 不 同 处 理 器 的 编号 ， 取 值 范围 在 0 ~ 63 之 间 。 所 有 处 
理 器 启动 程序 运行 一 个 循环 来 完成 它们 子 集中 数 的 求 和 : 


sum[Pn] = 0; 
for (i = 1000*Pn; i < 1000*(Pn+1); i += 1) 
sum[Pn] += A[i]; /*sum the assigned areas*/ 


(注意 ,在 C 程序 代码 中 ,1+ -1 是 1 -i4+1 的 [oj 


简写 形式 。) 
下 一 步 是 将 这 64 个 部 分 和 加 起 来 ， 称 为 约 简 (hatt=2) | 0_ na 
(reduction) 。 我 们 采用 分 而 治之 的 方法 。 首 先 用 一 半 一 时 


处 理 器 对 部 分 和 求 和 ， 然 后 再 用 四 分 之 一 处 理 器 对 新 ,ur4，[o] 回回 
的 部 分 和 求 和 ， 以 此 类 推 直 到 获得 最 终 的 和 。 图 6-8 





寸 程 进行 了 说 明 。 图 6-8 自 底 向 上 的 最 后 4 级 求 和 过 程 。 
对 约 简 的 过 程 进行 了 说 明 ee 
2 约 简 : 处 理 一 个 数据 结构 并 返回 单一 值 的 函数 。 口 理 器 ,将 自己 产生 的 部 分 和 与 


编号 i+half 的 处 理 器 产生 的 部 
在 该 例子 中 ,“ 消 费 者 ”处 理 器 在 读 取 由 “生产 分 和 相 加 
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者 ”处 理 器 写 人 结果 的 存储 器 位 置 之 前 必须 同步 ; 否则 ， 消 费 者 可 能 读 取 到 数据 的 旧 值 。 我 们 
希望 每 个 处 理 器 拥有 自己 的 循环 计数 器 变量 i ， 因 此 我 们 将 其 声明 为 “私有 ”变量 。 下 面 是 相 
应 的 代码 (half 也 是 私有 变量 ): 


half = 64; /*64 processors in multiprocessor*/ 
do 
synch(); /*wait for partial sum completion*/ 
if (half%2 != 0 && Pn == 0) 
sum[0] += sum[half-1]; 
/*Conditional sum needed when half is 
odd; Processor0 gets missing element */ 
half = half/2; /*dividing line on who sums */ 
if (Pn < half) sum[Pn] += sum[Pn+half]; 
while (half > 1); /*exit with final sum in Sum[0] */ 


图 硬件 /软件 接口 、 由 于 人 们 长 久 以 来 对 并 行 编程 都 有 着 浓厚 的 兴趣 ， 现 在 已 经 有 了 上 百 种 
创建 并 行 编程 系统 的 尝试 。 一 个 有 局 限 性 但 是 很 常用 的 例子 就 是 OpenMP。 它 只 是 一 个 带 
有 一 些 编译 器 提示 、 环 境 变 量 和 动态 链接 库 的 对 现 有 标准 语言 进行 扩展 的 应 用 程序 接口 
(Application Programmer Interface，API) 。 它 为 共享 存储 器 的 多 处 理 器 提供 了 一 个 便于 携带 
的 、 可 伸缩 并 且 简 单 的 编程 模型 。 它 的 最 初 目标 是 对 循环 和 递归 进行 并 行 化 。 
大 部 分 C 语言 编译 器 已 经 提供 了 对 OpenMP 的 支持 。 在 UNIX 下 的 C 语言 编译 器 中 使 
用 OpenMP API 的 命令 如 下 : 


cc -fopenmp foo.c 


OpenMP 使 用 pragma 对 C 语言 进行 扩展 ， 就 像 C 宏 预 处 理 器 命令 # include 和 # de- 
fine 一 样 。 与 上 面 的 例子 中 一 样 ， 我 们 要 使 用 64 个 处 理 器 ， 命 令 如 下 : 

#define P 64 /* define a constant that we"11 use a few times */ 

#pragma omp parallel num_threads(P) 

这 样 ， 运 行 时 库 就 会 使 用 64 个 并 行 线程 。 

要 将 一 个 串 行 的 for 循环 变 为 一 个 并 行 的 for 循环 ， 并 且 要 把 任务 等 份 地 分 割 成 我 们 指 
定 的 线程 数 ， 我 们 只 需要 写 如 下 代码 (这 里 假设 sum 初始 为 0) : 


#pragma omp parallel for 
for (Pn = 0; Pn < P; Pn += 1) 
for (i = 0; 1000*Ppn; i < 1000*(Pn+1); i += 1) 
sum[Pn] += A[i]; /*sum the assigned areas*/ 


对 于 递归 ， 我 们 可 以 使 用 另 一 个 命令 告诉 OpenMP 什么 是 递归 操作 符 和 用 什么 变量 代 
蔡 递 归 运 算 的 结果 。 


#pragma omp parallel for reduction(+ : FinalSum) 
for (i = 0; i < P; i += 1) 
FinalSum += sum[i]; /* Reduce to a single number */ 
注意 ， 现 在 就 要 靠 OpenMP 库 来 找到 使 用 64 个 处 理 器 来 完成 64 个 数字 相 加 的 最 佳 代码 了 。 
尽管 OpenMP 使 得 编写 并 行 代 码 更 加 简单 ， 但 是 对 于 调试 并 不 是 很 有 帮助 ， 所 以 很 多 
并 行程 序 员 使 用 比 OpenMP 更 复杂 的 并 行 编程 系统 ， 就 像 今天 有 很 多 程序 员 使 用 比 C 语言 
效率 更 高 的 编程 语言 一 样 。 


”OpenMP: 一 个 为 运行 在 UNIX 或 Microsoft 平台 上 的 C、C+ + 或 Fortran 语言 的 共享 存储 器 
多 处 理 器 的 API。 它 包含 了 一 些 给 编译 器 的 提示 、 一 个 库 和 一 些 运行 时 提示 。 
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以 上 给 出 了 一 个 经 典 的 MIMD 硬件 和 软件 的 例子 ， 我 们 的 下 一 个 关于 MIMD 的 例子 继承 于 
一 个 十 分 不 同 的 体系 结构 ， 并 且 对 于 并 行 编程 更 具有 挑战 性 。 


邯 | 小 测验 
是 非 判 断 : 共享 存储 多 处 理 器 不 能 利用 任务 级 并 行 性 的 优势 。 


图! 精 解 ” 一 些 作者 使 用 SMP 作为 同步 处 理 器 (symmetric multiprocessor) 的 简称 ， 以 此 来 说 
明 无 论 哪 个 处 理 器 访问 存储 器 ， 延 时 都 是 一 样 的 。 这 么 做 是 为 了 和 大 规模 NUMA 多 处 理 
器 做 区 别 ， 因 为 两 者 都 是 共享 一 个 地 址 空间 。 由 于 集群 比 大 规模 NUMA 多 处 理 器 更 为 党 
见 ， 在 本 书 中， 我 们 仍然 使 用 SMP 来 表示 它 最 原始 的 含义 即 共享 内 存 多 处 理 器 ) ， 并 用 
它 来 区 别 使 用 多 个 地 址 空间 的 处 理 器 ， 例 如 集群 。 

全 | 精 解 ”除了 共享 物理 地 址 空间 之 外 ， 还 有 一 种 方法 是 使 用 独立 的 物理 地 址 空间 ， 但 共享 同 
一 虚 地 址 空间 ， 由 操作 系统 负责 处 理 通信 。 这 种 方法 已 经 有 过 尝试 ， 但 为 了 向 注重 性 能 的 
程序 员 提供 一 个 实用 的 共享 存储 器 抽象 ， 它 的 开销 显得 过 大 。 


6.6 图 形 处 理 单元 简介 


在 现 有 体系 结构 中 增加 SIMD 指令 的 一 个 最 初 理由 是 许多 微 处 理 器 都 连接 到 PC 或 工作 站 
中 的 图 形 显示 设备 上 ， 并 且 用 于 图 形 显示 的 处 理 时 间 所 占 比 例 越 来 越 大 。 因 此 ， 当 微 处 理 器 设 
计 中 可 用 晶体 管 数量 随 着 摩尔 定律 的 发 展 增加 时 ， 提 高 图 形 处 理 能 力 就 变 得 有 必要 了 。 
提高 图 形 处 理 能 力 的 主要 动力 是 计算 机 游戏 产业 ， 包 括 PC 和 专用 的 游戏 终端 (如 Sony 
PlayStation) 。 快 速 增长 的 游戏 市 场 使 许多 公司 增加 了 快速 图 形 硬件 方面 的 研发 ， 这 种 正 反 馈 使 
得 图 形 处 理 能 力 的 增长 超过 了 主流 微 处 理 器 的 通用 处 理 能 力 。 
由 于 图 形 和 游戏 开发 与 微 处 理 器 开发 有 着 不 同 的 目标 ， 故 而 图 形 处 理 采用 了 自己 的 一 套 处 
理 风格 和 术语 。 随 着 图 形 处 理 器 地 位 的 上 升 ， 它 们 将 自己 命名 为 图 形 处 理 单元 ( Graphics Pro- 
cessing Unit，GPU)， 以 便 区 分 于 CPU。 
如 今 人 们 可 以 只 花 几 百 美 元 就 能 买 到 带 有 上 百 个 并 行 浮 点 运算 单元 的 GPU， 这 使 得 进行 高 
性 能 计算 更 容易 了 。 这 种 趋势 与 程序 语言 相 结合 ， 促 进 了 人 们 对 GPU 计算 的 兴趣 的 增长 同时 
使 得 GPU 更 易于 编程 。 因 此 ， 很 多 科学 计算 和 多 媒体 程序 的 编程 人 员 开始 犹豫 是 使 用 CPU 还 
是 GPU。 
(本 节 专 注 于 使 用 GPU 进行 计算 。 要 想 知道 使 用 GPU 进行 计算 是 如 何 与 其 作为 图 形 加 速 
卡 这 一 原始 功能 进行 结合 的 ， 请 参阅 附录 C。) 
下 面 是 GPU 与 CPU 的 几 个 主要 差别 : 
。 GPU 是 补充 CPU 的 加 速 器 ， 因 此 它们 不 必 执 行 CPU 的 全 部 任务 。 这 种 定位 使 得 它们 专 
注 于 图 形 方面 的 资源 。 对 于 一 个 同时 具有 GPU 和 CPU 的 系统 来 说 ，GPU 可 以 对 某 些 任 
务 执行 效率 很 低 甚至 不 能 完成 时 ， 可 以 让 CPU 在 必要 的 时 候 完 成 。 
e。 GPU 解决 的 问题 规模 通常 为 几 百 MB 到 GB， 而 不 是 几 百 GB 到 TB。 
这 些 差异 导致 体系 结构 的 设计 风格 不 同 : 
。 也 许 最 大 的 不 同 就 是 GPU 不 像 CPU 一 样 依赖 多 级 缓存 来 隐藏 访问 存储 器 的 长 延迟 。 事 
实 上 ，GPU 依赖 硬件 多 线程 (6.4 节 ) 来 隐藏 到 访 存 的 延迟 。 也 就 是 说 ， 在 存储 器 请 
求 和 数据 到 达 之 间 ，GPU 会 执行 数 以 百 计 甚至 数 以 千 计 的 与 该 请 求 无 关 的 线程 。 
e GPU 的 主 存 是 面向 带宽 的 而 不 是 面向 延迟 的 。 甚 至 有 面向 CPU 的 特殊 图 形 DRAM 芯 
片 ， 相 对 于 面向 CPU 的 DRAM， 它 的 宽度 更 大 并 能 提供 更 大 带宽 。 除 此 之 外 ，GPU 存 
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储 器 历来 都 小 于 和 常规 微 处 理 器 的 存储 器 。 在 2013 年 ，GPU 一 般 有 不 超过 4 ~6GiB 的 存 
储 器 ， 而 CPU 一 般 在 32 ~256GiB 之 间 。 最 后 ， 需 要 注意 对 于 通用 计算 ， 必须 将 数据 在 
CPU 存储 器 和 GPU 存储 器 之 间 的 传输 时 间 包 含 进来 ， 因 为 CPU 是 一 个 协 处 理 器 。 

。 考虑 到 GPU 是 通过 多 线程 并 行 执行 来 获取 高 存储 器 带宽 的 ， 除 了 多 线程 ，GPU 还 可 以 
提供 许多 并 行 处 理 器 (MIMD )。 因 此 ,每 个 CPU 相 比 于 CPU 有 更 多 的 线程 ， 并且 拥 
有 更 多 的 处 理 器 。 


个 硬件 /软件 接口 尽管 GPU 是 为 众多 应 用 程序 中 很 小 一 部 分 设计 的 ， 但 是 一 些 程序 员 希 户 
能 以 某 种 形式 编制 他 们 的 应 用 ， 以 利用 GPU 内 潜在 的 高 性 能 。 在 厌倦 了 使 用 图 形 API 语 
言 描述 问题 之 后 ， 他 们 开发 了 类 C 编程 语言 ， 可 以 直接 在 CPU 上 编程 。NVIDIA 的 CUDA 
( compute unified device architecture) 是 其 中 一 个 例子 ， 它 使 得 程序 员 可 以 编写 直接 在 GPU 
运行 的 C 程序 ， 尽 管 仍 有 一 些 限制 。 附 录 C 给 出 了 CUDA 代码 的 例子 。 (OpenCL 是 一 个 
由 多 个 公司 发 起 的 一 种 轻型 编程 语言 ， 它 可 以 提供 很 多 CUDA 中 的 功能 。) 

NVIDIA 决定 将 所 有 形式 的 并 行 都 定义 为 CUDA 线程 (CUDA thread ) 。 将 这 种 最 底层 
的 并 行 作为 编程 原 语 ， 编 译 器 和 硬件 可 以 在 GPU 上 将 上 千 个 CUDA 线程 聚集 起 来 使 用 各 
种 类 型 的 并 行 去 执行 : 多 线程 、MIMD 、SIMD 和 指令 级 并 行 。 这 些 线程 被 聚集 成 线程 块 ， 
以 32 个 为 一 组 一 起 执行 。GPU 内 部 的 多 线程 处 理 器 执行 这 些 线程 块 ， 一 个 CPU 一 般 由 
8 ~32 个 这 种 处 理 器 组 成 。 


6. 6.1 NVIDIA GPU 体系 结构 简介 


我 们 使 用 NVIDIA 系统 作为 GPU 体系 结构 的 代表 。 特 别 地 ， 我 们 使 用 CUDA 并 行 编程 语言 
中 的 术语 并 使 用 Fermi 体系 结构 作为 例子 。 

与 向 量 体 系 结构 一 样 ，GPU 只 对 数据 级 并 行 问题 才 有 效果 。 这 两 种 体系 结构 都 有 聚集 - 分 
散 数 据 传输 ， 但 是 CPU 处 理 器 有 比 向 量 处 理 器 更 多 的 寄存 器 。 与 向 量 体 系 结构 不 同 ，CPU 也 
依赖 于 多 线程 SIMD 处 理 器 中 的 硬件 多 线程 以 隐藏 访 存 延 时 ( 见 6.4 节 )。 

多 线程 SIMD 处 理 器 与 向 量 处 理 器 很 相似 ， 但 是 前 者 有 更 多 的 并 行 功能 单元 ， 而 不 像 后 者 
只 有 少数 几 个 高 度 并 行 化 的 功能 单元 。 

就 像 前 面 提 到 过 的 ， 一 个 GPU 包含 多 个 多 线程 的 SIMD 处 理 器 ; 也 就 是 说 ，GPU 是 一 个 由 多 
个 多 线程 SIMD 处 理 器 组 成 的 MIMD 处 理 器 。 例 如 ，NVIDIA 的 Fermi 结构 有 4 种 不 同 的 配置 ， 根 
据 价 格 的 不 同 分 别 含 有 7、11、14 或 15 个 多 线程 SIMD 处 理 器 。 对 于 含有 不 同 数量 多 线程 SIMD 
处 理 器 的 GPU， 为 了 实现 透明 的 伸缩 性 ，GPU 使 用 线程 块 调度 器 ( thread block scheduler) 将 线程 
块 分 配给 多 线程 SIMD 处 理 器 。 图 6-9 给 出 了 一 个 简化 的 多 线程 SIMD 处 理 器 的 结构 图 。 

再 往 下 深入 一 层 ， 硬 件 产生 、 管 理 、 调 度 并 执行 的 机 器 目标 代码 是 一 个 由 SIMD 指令 组 成 
的 线程 (thread of SIMD instruction ) ， 我 们 也 称 其 为 一 个 SIMD 线程 (SIMD thread ) 。 它 就 是 一 
个 传统 意义 上 的 线程 ， 但 是 它 包 含 这 些 相 互 独立 的 SIMD 指令 。 这 些 SIMD 线程 有 它们 自己 的 
程序 计数 器 并 且 它 们 运行 在 一 个 多 线程 SIMD 处 理 器 上 。SIMD 线程 调度 器 (SIMD thread sched- 
uler) 含有 一 个 控制 器 ， 这 个 控制 器 可 以 告诉 调度 器 哪些 SIMD 指令 线程 已 经 准备 就 绪 可 以 执 
行 了 ， 并 且 将 这 些 线程 送 给 分 派 单 元 ， 然 后 分 派 到 多 线程 SIMD 处 理 器 上 执行 。 这 个 调度 器 同 
传统 多 线程 处 理 器 中 的 硬件 线程 调度 器 ( 见 6.4 节 ) 一 样 ， 只 是 它 调度 的 是 SIMD 指令 。 
此 ，GPU 硬件 有 两 层 硬件 调度 器 : 

1) 线程 块 调度 器 (thread block scheduler) 将 线程 块 分 配 到 多 线程 SIMD 处 理 器 上。 

2) 当 SIMD 线程 准备 就 绪 时 ，SIMD 处 理 器 内 部 的 SIMD 线程 调度 器 进行 调度 。 
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图 6-9 多 线程 SIMD 处 理 器 的 数据 通路 的 简略 结构 图 。 它 有 16 个 SIMD 通道 。SIMD 线程 调度 器 用 很 多 
相互 独立 的 SIMD 线程 来 调度 执行 


这 些 线程 的 SIMD 指令 的 宽度 为 32， 所 以 每 一 个 SIMD 指令 线程 都 会 对 32 个 元 素 进行 计 
算 。 由 于 线程 是 由 SIMD 指令 组 成 ，SIMD 处 理 器 必须 有 并 行 功能 单元 来 执行 这 些 操作 。 我 们 称 
为 SIMD 通道 (SIMD lane) ， 它 们 同 6. 3 节 的 向 量 通道 非常 相似 。 


团 精 解 GPU 版 本 的 不 同 ， 每 个 SIMD 处 理 器 中 的 通道 数量 也 有 所 不 同 。 对 于 Fermi， 每 个 
32 宽度 的 SIMD 指令 线程 被 映射 到 16 个 SIMD 通道 上 。 所 以 SIMD 指令 线程 中 的 每 一 条 指 
令 需 要 两 个 时 钟 周 期 来 完成 。 每 一 个 SIMD 指令 线程 都 是 同步 执行 。 继 续 将 SIMD 处 理 器 
比 作 一 个 向 量 处 理 器 ， 我 们 可 以 说 它 有 16 个 通道 ， 并 且 向 量 宽度 为 32。 这 种 宽 且 浅 的 特 
性 使 得 我 们 称 之 为 SIMD 处 理 器 而 不 是 向 量 处 理 器 ， 因 为 这 样 更 直观 一 些 。 

根据 定义 ，SIMD 指令 线程 之 间 是 相互 独立 的 ，SIMD 线程 调度 器 可 以 挑选 任何 准备 就 
绪 的 线程 去 执行 ， 而 不 需要 考虑 同一 线程 中 指令 的 顺序 。 因 此 ， 若 使 用 6.4 节 中 的 术语 ， 
则 它 使 用 的 是 细 粒 度 多 线程 。 

为 了 保存 数据 元 素 ， 一 个 Fermi SIMD 处 理 器 有 着 多 达 32 768 个 32 位 寄存 器 。 就 像 向 量 处 
理 器 一 样 ， 这 些 寄存 器 根据 向 量 通道 (或 称 为 SIMD 通道 ) 进行 逻辑 划分 。 每 个 SIMD 线程 有 
至 多 的 个 寄存 器 ， 所 以 我 们 可 以 认为 一 个 SIMD 线程 有 至 多 64 个 向 量 寄存 器 ， 且 每 个 向 量 寄存 
器 可 以 存放 32 个 32 位 宽 的 数据 元 素 。 

由 于 Fermi 有 16 个 SIMD 通道 ， 所 以 共有 2048 个 寄存 器 。 每 个 线程 可 以 从 其 中 的 一 
个 向 量 寄 存 器 中 获得 一 个 数据 。 注 意 ， 一 个 CUDA 线程 只 是 将 一 个 SIMD 指令 中 的 线程 进 
行 纵向 划分 ， 对 应 于 一 个 SIMD 通道 执行 一 个 数据 元 素 。 请 注意 CUDA 线程 同 POSIX 线程 
非常 不 同 ; 因为 不 能 在 一 个 CUDA 线程 中 执行 系统 调用 和 同步 操作 。 


6.6.2 NVIDIA GPU 存储 结构 


图 6-10 展示 了 一 个 NVIDIA GPU 的 存储 结构 。 我 们 称 每 个 多 线程 SIMD 处 理 器 专用 的 片上 
存储 器 为 局 部 存储 器 (local memory ) 。 它 是 由 同一 个 多 线程 SIMD 处 理 器 中 的 所 有 SIMD 通道 
所 共享 的 ,但 是 多 个 多 线程 SIMD 处 理 器 之 间 不 共享 它 。 我 们 称 整个 GPU 和 所 有 线程 块 共享 的 
片 外 存储 器 为 CPU 存储 器 (CPU memory)。 
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图 6-10 GPU 存储 器 结构 。CPU 存储 器 被 向 量化 的 循环 所 共享 。 同 一 个 线程 块 中 的 所 有 线程 共享 局 部 存储 器 


GPU 不 依赖 于 大 容量 的 cache 来 保存 整个 应 用 程序 的 工作 集 ， 而 是 依赖 于 小 容量 的 流 
cache 和 大 量 的 SIMD 多 线程 来 隐藏 访问 DRAM 的 访 存 延 时 ， 因 为 这 些 工作 集 通 常 为 上 百 MB。 
因此 这 些 数 据 无 法 在 多 核 处 理 器 的 最 后 一 级 cache 中 放下 。 为 了 使 用 硬件 多 线程 来 隐藏 访问 
DRAM 时 的 延 时 ， 就 将 处 理 器 中 用 来 放置 cache 的 芯片 面积 在 CPU 中 替换 为 计算 资源 和 大 量 的 
寄存 器 ， 用 来 执行 大 量 的 SIMD 线程 。 


oo 精 解 尽管 隐藏 访 存 延 时 是 基本 的 原则 ， 但 是 注意 ， 最 新 的 CPU 和 向 量 处 理 器 都 增加 了 
cache。 例 如 ， 最 近 的 Fermi 结构 增加 了 cache, 但 是 并 不 把 它们 作为 为 了 减少 访问 GPU 存储 
器 访问 次 数 的 带宽 过 滤器 ， 或 为 了 少数 不 能 通过 多 线程 来 隐藏 访 存 延 时 的 变量 的 加 速 器 。 为 
栈 帧 、 函 数 调用 和 寄存 器 划分 而 设计 的 局 部 存储 器 可 以 被 认为 是 cache， 因 为 它们 的 延 时 对 
函数 调用 有 影响 。cache 也 对 减少 能 耗 有 好 处 ， 因 为 访问 片上 的 cache 需要 的 能 耗 比 访问 多 个 
片 外 的 DRAM 要 小 很 多 。 


6. 6. 3 GPU 展望 


Rt 拥有 SIMD 指 全 和 从 与 GPU 有 一 
它们 之 间 的 相似 点 与 不 同 点 。 尽 管 








些 共 同 特点 。 图 6-11 
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ce 有 更 多 的 处 理 器 和 更 多 的 通道 数 ， [spiamm | 六 

但 是 它们 两 者 都 是 通过 使 用 多 个 SIMD TsiMD 通 道 数目 /处 理 器 2~4 

通道 来 实现 MIMD 功能 的 。 尽 管 CPU 的 | 支持 SIMD 线 程 的 硬件 数量 2~4 
硬件 支持 更 多 的 线程 ,但 是 两 者 都 是 通 | 最 大 的 cache 容 量 8MiB 0.75MiB 
过 使 用 硬件 多 线程 来 提高 处 理 器 利用 率 | 存储 器 地 址 大 小 64 位 64 位 
的 。 尽 管 GPU 使 用 的 是 小 容量 的 流 | 主 存 容量 8GiB ~ 64GiB 4~6GiB 
cache， 而 多 核 计算 机 使 用 的 是 尽量 把 整 ”| 页 面 级 存储 保护 ? 是 是 
个 工作 集 都 放 进 去 的 大 容量 多 层次 结构 “| 需要 分 页 ? 是 | 看 
的 cache, 但 是 两 者 都 有 cache 结构 。 尽 ”| ache 一 致 性 ? 是 | 再 


管 CPU 的 物理 主 存 小 很 多 , 但 是 两 者 都 
使 用 64 位 的 地 址 空间 。 尽 管 GPU 提供 














图 6-11 


带 有 多 媒体 SIMD 扩展 的 多 核 处 理 器 与 最 近 的 


GPU 的 相似 点 与 不 同 点 
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页 面 集 的 内 存 保护 ， 但 是 它 目 前 还 不 支持 请 求 页 面 调 度 。 

SIMD 处 理 器 也 很 像 向 量 处 理 器 。CPU 中 的 多 个 SIMD 处 理 器 像 独立 的 MIMD 核 一 样 工作 ， 
就 像 向 量 计 算 机 有 多 个 向 量 处 理 器 一 样 。 这 样 ， 可 以 将 Fermi GTX 580 认为 是 一 个 带 有 硬件 多 
线程 功能 的 16 个 核 的 机 器 ， 每 个 核 含 有 16 个 通道 。 两 者 最 大 的 区 别 在 于 多 线程 ， 多 线程 对 于 
CPU 是 最 基本 的 概念 ， 而 在 向 量 处 理 器 中 却 不 存在 。 

GPU 结构 和 CPU 结构 并 没有 相同 的 祖先 ; 并 没有 缺少 了 哪 一 环 来 解释 这 种 现象 。 这 种 不 
同 寻常 的 继承 关系 ， 使 得 GPU 并 没有 使 用 CPU 领域 中 常用 的 术语 ， 这 让 人 们 开始 对 GPU 是 什 
么 以 及 GPU 是 如 何 工作 的 产生 困惑 。 为 了 解决 这 个 问题 , 图 6-12 (从 左 到 右 ) 列 出 了 本 节 使 
用 过 的 更 具有 说 明 性 的 术语 ， 首 先是 主流 计算 领域 中 最 接近 的 术语 ， 然 后 是 NVIDIA GPU 官方 
的 术语 (如 果 你 感 兴趣 ) ， 最 后 是 该 术语 简单 的 解释 。 这 个 “GPU 罗 塞 塔 石碑 ”可 以 将 本 节 的 
内 容 和 想法 与 附录 C 中 介绍 的 更 传统 的 CPU 描述 联系 起 来 。 - 


分 类 描述 性 名 称 传统 描述 名 称 “| CEDAANVIDIE 教科 书 的 定义 
官方 术语 


在 CPU 上 执行 的 一 个 可 向 量化 循环 由 
可 向 量化 循环 一 个 或 多 个 可 并 行 执行 的 线程 块 (循环 
展开 后 的 程序 块 ) 组 成 


在 SIMD 多 线程 处 理 器 上 执行 的 被 展 
开 的 循环 体 ( 向 量化 了 的 循环 ) ， 由 一 
个 或 多 个 SIMD 指令 线程 组 成 。 这 些 线 
程 间 数 据 通 信 通 过 局 部 存储 单元 实现 
一 个 SIMD 指令 线程 对 应 于 一 个 SIMD 
的 标量 元 素 执行 单元 的 执行 序列 。 其 计 
算 结 果 的 保存 依赖 于 屏蔽 寄存 器 以 及 预 
测 寄存 器 的 内 容 


一 个 仅 包含 SIMD 指令 的 传统 线程 ,在 
SIMD 多 线程 处 理 器 中 执行 。 其 结果 的 保 
存 依赖 于 单元 素 屏蔽 寄存 器 的 内 容 
横 跨 多 个 SIMD 元 素 执行 单元 (SIMD 
Lanes， 一 个 SIMD 执行 单元 包含 对 应 向 


SIMD 单元 执行 
序列 CUDA 线程 
量 内 标量 元 素数 量 的 执行 模块 ) 上 执行 


SIMD 指令 的 一 
个 线程 向 量 指令 线程 W 
SIMD 指令 : PTX 
的 一 个 SIMD 指令 


arp 块 
指令 
多 线程 SIMD 处 (多 线程 ) 向 流 多 线程 处 执行 SIMD 指令 线程 ， 一 个 SIMD 多 线 
理 器 量 处 理 器 理 器 程 处 理 器 独立 于 其 他 SIMD 处 理 器 
引擎 

















可 向 量化 循环 





















向 量化 了 的 循 ( 切 分 ) 向 量 
环 体 /循环 展开 后 | 化 循环 体 /循环 展 线程 块 
的 程序 块 开 后 的 程序 块 

























































- 主线 程 调度 | 分配 多 个 线程 块 (循环 展开 后 的 程序 
和 i 
”| ”一 个 多 线程 处 当 SIMD 线程 可 执行 时 ， 硬 件 单元 调 
度 器 
2 Ey SIMD 元 素 执 行 单元 执行 的 一 个 SIMD 线 
ny 元 素 执 行 量 元 素 执行 | 线程 处 理 器 。 | 程 对 应 于 向 量 中 的 单一 标量 元 素 。 其 计算 
结果 的 保存 依赖 于 屏蔽 寄存 器 的 内 容 
一 个 多 线程 SIMD 处 理 器 私有 的 快速 | 
存储 器 硬件 | ”本 地 存储 器 本 地 存储 器 共享 存储 器 。 “| 本 地 SRAM 存储 器 ， 其 他 SIMD 处 理 器 
不 能 访问 
SIMD 元 素 执行 | ”向 量 元 素 执 行 | ”线程 处 理 器 寄 | ” 横 跨 一 个 完整 线程 块 (被 展开 的 循环 
单元 寄存 器 单元 寄存 器 存 器 体 ) ，SIMD 元 素 执行 单元 内 的 寄存 器 
图 6-12 ”GPU 术语 的 快速 介绍 。 第 一 列 列 出 了 硬件 术语 。 这 12 个 术语 被 分 成 4 组 。 从 上 到 下 为 : 程序 


用 于 确定 SIMD 线程 执行 的 记分 牌 构成 
GPU 片 外 存 GPU 中 所 有 多 线程 处 理 器 均 可 访问 的 
抽象 、 机 器 目标 代码 、 处 理 硬件 和 存储 器 硬件 
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尽管 CPU 正在 向 主流 计算 进军 ,但 是 它们 还 是 不 能 舍弃 继续 发 展 图 形 加 速 卡 的 功能 。 由 
于 有 很 多 硬件 是 为 了 加 速 图 形 处 理 的 ， 因 此 只 有 当 架 构 师 开始 考虑 如 何 扩展 GPU 以 使 它 可 以 
进行 更 多 类 型 的 计算 时 ， 对 GPU 进行 设计 才 会 更 有 意义 。 

本 节 给 出 了 两 种 共享 地 址 空 went 我 们 下 节 将 要 介绍 每 一 个 处 理 器 都 有 
自己 独立 的 地 址 空间 的 并 行 处 理 器 ， 这 会 使 构建 更 大 型 的 系统 变 得 更 简单 。 你 每 天 都 在 使 用 的 
Internet 服务 Ne . 


邯 | 精 解 尽管 传统 上 的 GPU 是 具有 独立 内 存 空间 的 处 理 器 ， 但 AMD 和 Intel 都 宣称 已 经 有 可 
以 让 GPU 和 CPU 共享 一 个 内 存 的 “混合 ”产品 。 对 于 这 种 混合 结构 来 说 ， 挑 战 就 是 如 何 
维护 一 个 高 的 存储 带宽 ， 这 也 是 CPU 的 基本 问题 。 

著 | 小 测验 
是 非 判断 题 : CPU 依靠 图 形 DRAM 芯片 来 减少 访 存 延 时 ， 并 以 此 来 提高 图 形 应 用 程序 的 

性 能 。 

6.7 集群 、 仓 储 级 计算 机 和 其 他 消息 传递 多 处 理 器 


对 处 理 器 来 说 ， 另 一 个 共享 地 址 空间 的 方法 是 每 个 处 理 器 具有 自己 私有 的 物理 地 址 空间 。 





























图 6-13 给 出 了 具有 多 个 私有 地 址 空间 的 多 处 理 器 的 a 

典型 组 成 。 这 种 多 处 理 器 必须 通过 显 式 的 消息 传递 

(message passing) 进行 通信 ， 传 统 上 也 把 这 类 计算 机 “< | 

称 为 消息 传递 计算 机 。 只 要 系统 提供 发 送 消息 例 程 a 

(send message routine) 和 接收 消息 例 程 (receive message 存 全 呈 | 

routine) ， 协 调 工 作 就 可 以 通过 消息 传递 来 完成 ， 因 于 | 

为 发 送 处 理 器 知道 何 时 发 送 消息 ， 接 收 处 理 器 也 知道 

何 时 消息 到 达 。 如 果 发 送 者 需要 确认 消息 已 经 送 达 ， 上 | 
图 


那么 接收 处 理 器 可 以 向 发 送 者 返回 一 个 确认 消息 。 6-13 具有 多 个 私有 地 址 空间 的 多 处 


理 器 的 组 成 ， 传 统 上 称 为 消息 


消息 传递 : 通过 显 式 发 送 和 接收 信息 的 方式 在 多 传递 多 处 理 器 。 与 图 6-7 中 的 
个 处 理 器 之 间 的 通信 。 SMP 不 同 ， 互联 网络 不 是 在 

2 发 送 消息 例 程 具有 私有 存储 器 的 机 器 中 一 个 处 cache 和 存储 器 之 间 ， 而 是 在 处 
理 器 将 消息 发 送 给 另 一 个 处 理 器 的 例 程 。 理 器 -存储 器 的 节点 之 间 


2 ”接收 消息 例 程 具有 私有 存储 器 的 机 器 中 一 个 处 理 器 接收 来 自 其 他 处 理 器 消息 的 例 程 。 


历史 上 曾经 有 过 几 次 基于 高 性 能 消息 传递 网 络 构建 大 规模 计算 机 的 尝试 。 相 对 于 使 用 局 域 
网 构建 的 集群 ， 它 们 确实 可 以 提供 更 高 的 性 能 。 确 实 ， 今 天 很 多 超级 计算 机 使 用 自己 特有 的 网 
络 。 但 是 问题 是 它们 比 以 太 网 这 样 的 局 域 网 花 销 更 大 。 很 少 有 应 用 程序 能 够 为 更 高 的 性 能 支付 
更 多 的 成 本 。 


国 !| 硬件 /软件 接口 ” 相 比 于 共享 一 致 性 cache， 依 赖 于 消息 传递 机 制 的 计算 机 对 于 硬件 设计 者 来 
说 更 容易 构建 ( 见 5.8 节 )。 这 对 于 编程 人 员 来 说 也 有 好 处 ， 那 就 是 通信 都 是 显 式 的 ， 这 意 
味 着 相 比 于 共享 一 致 性 cache 的 隐 式 通信 来 说 性 能 方面 的 惊喜 更 少 。 对 于 编程 人 员 的 坏处 是 
把 顺序 程序 移植 到 消息 传递 机 制 的 计算 机 上 更 困难 ， 因 为 所 有 的 通信 都 需要 提前 指出 ， 和 否则 
程序 就 不 会 工作 。cache 一 致 性 共享 存储 器 允许 硬件 指明 哪些 数据 需要 进行 通信 ， 这 使 得 移 
植 更 容易 。 考 虑 到 隐 式 通信 的 优点 与 不 尽 ， 关 于 哪 种 方式 最 有 利于 获得 高 性 能 存在 分 歧 ， 但 
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是 在 今天 的 市 场 上 却 并 没有 这 种 困惑 。 多 核 微 处 理 器 使 用 共享 物理 内 存 机 制 进行 通信 ， 而 集 
群 的 节点 之 间 使 用 消息 传递 机 制 进行 通信 。 


一 些 并 发 程序 可 以 在 并 行 硬件 上 运行 地 很 好 ， 而 与 该 硬件 提供 的 是 共享 地 址 机 制 还 是 消息 
传递 机 制 无 关 。 特 别 的 ,使 用 任务 级 并 行 和 通信 比较 少 的 应 用 程序 一 一 如 Web 搜索 、 邮 件 服 
务 器 和 文件 服务 器 一 一 不 需要 共享 地 址 机 制 就 可 以 运行 地 很 好 。 结 果 是 ， 集 群 (cluster) 已 经 
变 成 了 当今 基于 消息 传递 机 制 的 并 行 计 算 机 最 普遍 使 用 的 例子 。 由 于 有 独自 的 存储 器 ， 集 群 的 
每 一 个 节点 都 运行 操作 系统 的 一 个 独立 的 副本 。 相 反 ， 微 处 理 器 的 所 有 核 在 一 个 芯片 上 通过 一 
个 高 速 的 互联 网 络 相连 ， 并 且 多 个 芯片 共享 的 存储 系统 通过 存储 互联 网 络 通信 。 存 储 互联 网 络 
有 更 高 的 带宽 和 更 小 的 延 时 ， 可 以 让 共享 内 存 的 多 处 理 器 有 更 好 的 通信 性 能 。 


”集群 通过 标准 的 网 络 开关 将 LO 链接 起 来 的 计算 机 集合 ， 以 此 来 构建 消息 传递 机 制 的 多 
处 理 器 。 


从 并 行 编程 的 角度 来 讲 ， 将 用 户 内 存 的 弱点 分 配 到 各 个 独立 的 部 分 提高 了 系统 的 可 靠 性 
( 见 5.5 节 )。 由 于 集群 是 由 通过 局 域 网 络 连接 起 来 的 独立 计算 机 组 成 ， 所 以 相 比 于 共享 存储 器 
多 处 理 器 而 言 ， 在 不 影响 整个 系统 性 能 的 前 提 下 替换 其 中 的 某 一 个 计算 机 比较 容易 。 从 根本 上 
讲 ， 共 享 地 址 意味 着 很 难 在 不 需要 大 量 操 作 系统 和 服务 器 设计 进行 大 量 工作 情况 下 将 每 个 处 理 
器 隔离 开 来 并 且 进 行 蔡 换 。 当 一 个 服务 器 坏 掉 时 ， 整 个 系统 很 容易 降级 ， 因 此 提高 了 可 靠 性 。 
由 于 集群 上 的 软件 是 运行 在 每 个 独立 计算 机 上 的 操作 系统 中 的 ， 所 以 很 容易 断 开 一 个 计算 机 与 
互联 网 络 的 连接 并 且 进 行 替 换 。 

由 于 集群 是 由 多 个 计算 机 和 独立 可 配置 的 互联 网 络 组 成 的 ， 这 种 隔离 使 得 在 不 印 载 运行 在 
集群 上 的 软件 的 前 提 下 对 系统 进行 扩展 变 得 很 容易 。 

尽管 与 大 规模 共享 存储 器 多 处 理 器 相 比 ， 集 群 在 通信 方面 性 能 很 弱 ， 但 它 的 低 成 本 、 高 可 
用 性 和 快速 可 扩展 性 使 得 它 对 于 Internet 服务 提供 者 具有 很 大 的 吸引 力 。 上 亿 人 每 天 都 在 使 用 
的 搜索 引擎 就 依赖 于 该 技术 。Amazon 、Facebook 、Google 、Microsoft 和 其 他 商业 巨头 都 有 多 个 
数据 中 心 ， 而 每 个 数据 中 心 都 是 由 含有 成 千 上 万 个 服务 器 的 集群 构成 。 很 显然 ， 将 多 个 处 理 器 
应 用 在 Internet 服务 公司 的 做 法 已 经 获得 了 巨大 的 成 功 。 


仓储 级 计算 机 


每 个 人 都 可 以 构建 一 个 快速 的 CPU， 呈 键 是 如 何 构建 一 个 快速 的 系统 。 
一 一 Seymour Crzy， 盐 级 计算 机 之 父 
为 了 支持 上 面 提 到 的 Internet 服务 ， 必 须 构建 新 的 建筑 、 电 力 系统 以 及 对 100 000 台 服 务 器 
进行 冷却 。 尽 管 它们 可 以 归 类 为 大 型 的 集群 ， 但 是 它们 的 体系 结构 和 操作 复杂 很 多 。 它 们 就 像 
一 个 巨大 的 计算 机 ， 连 接 和 安放 50 000 ~ 100 000 台 服 务 器 ， 造 价 、 电 力 和 冷却 系统 、 服 务 器 成 
本 以 及 互联 设备 总 共 需 要 15 亿美 元 。 我 们 把 这 归 类 于 一 类 新 的 计算 机 ， 叫 做 仓储 级 计算 机 
(Warehouse-Scale Computer，WSC) 。 








著 ] 硬件 /软件 接口 ”WSC 中 批 处 理 最 流行 的 架构 是 MapReduce [Dean，2008] 和 它们 开源 李 
生 兄 弟 Hadoop。 受 Lisp 中 同名 函数 的 启发 ，Map 首先 对 每 个 逻辑 输入 记录 使 用 一 个 程序 
员 提 过 的 函数 ， 然 后 Map 在 数 以 千 计 的 服务 器 上 运行 并 产生 一 个 由 关键 值 对 组 成 的 中 间 
结果 。Reduce 将 这 些 分 布 的 任务 的 输出 结果 收集 起 来 ， 并 使 用 另外 一 个 程序 员 提 供 的 函 
数 来 对 其 进行 压缩 。 通 过 适当 的 软件 处 理 ， 这 两 部 分 可 以 高 度 并 行 化 并 且 易 于 使 用 。 在 
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30 分 钟 之 内 ， 一 个 编程 新 手 就 可 以 在 上 千 个 服务 器 上 运行 MapReduce。 
例如 ， 一 个 MapReduce 程序 要 计算 一 大 堆 文 档 中 每 个 单词 出 现 的 次 数 。 下 面 是 该 程序 的 
一 个 简化 版 本 ， 它 只 给 出 了 最 内 层 的 循环 ， 并 且 假 设 在 一 个 文档 中 所 有 单词 只 出 现 一 次 。 


map(String key, String value) : 
// key: document name 
// value: document contents 
for each word w in value: 
EmitIntermediate(w, “1”); // Produce list of all words reduce(String key, Iterator values): 
// key: a word 
// values: a list of counts 
int result = 0; 
for each v in values: 
result += ParseInt(v); // get integer from key-value pair 
Emit(AsString(result)): 


Map 函数 中 使 用 的 EmitIntermediate 函数 可 以 将 文档 中 的 每 一 个 单词 输出 ， 同 时 还 
带 有 一 个 1 值 。 然 后 Reduce 函数 逐个 将 同一 个 单词 的 所 有 value 值 加 起 来 ， 这 其 中 使 用 Par- 
seInt () 函数 得 到 所 有 文档 中 每 个 单词 的 value 值 。MapReduce 运行 时 环境 将 map 任务 和 
reduce 任务 调度 到 WSC 中 的 服务 器 上 。 


在 这 种 极端 的 规模 下 ，WSC 需要 在 电源 分 布 、 冷 却 、 监 控 和 操作 上 都 做 出 创新 ，WSC 可 
以 算是 20 世纪 70 年 代 的 超级 计算 机 的 后 代 一 一 这 使 得 Seymour Cray 成 为 了 当今 WSC 体系 结构 
之 父 。 他 的 超级 计算 机 可 以 解决 其 他 计算 机 无 法 解决 的 问题 ， 但 是 却 过 于 昂贵 ， 以 至 于 只 有 人 少 
数 几 个 公司 有 能 力 购 买 它 。 而 现在 WSC 的 目标 是 为 全 世界 提供 信息 技术 ， 而 不 是 专门 为 科学 
家 和 工程 师 提 供 高 性 能 计算 。 因 此 ，WSC 在 今天 的 社会 中 扮演 着 比 Cray 的 超级 计算 机 在 那个 
年 代 更 加 重要 的 角色 。 

尽管 它们 都 与 服务 器 在 目标 上 有 一 些 共同 点 , 但 是 WSC 还 是 有 以 下 3 点 主要 区 别 : 

1) 大 量 简单 的 并 行 : 对 于 服务 器 架构 师 ， 一 个 需要 着 重 考虑 的 因素 是 目前 市 场 上 的 应 用 
程序 是 否 具有 能 在 并 行 硬件 上 运行 得 足够 的 并 行 性 ， 以 及 为 了 发 据 这 些 并 行 性 而 使 用 足够 多 的 
硬件 是 否 代价 过 于 高 昂 。 但 是 WSC 的 架构 师 没 有 这 方面 的 顾虑 。 首 先 ， 像 MapReduce 这 样 的 
批 处 理 程序 可 以 从 大 量 需 要 独立 处 理 的 数据 集中 获 利 , 例如 网 页 抓 取 中 数 以 亿 计 的 网 页 。 其 
次 ， 交 互 式 Internet 服务 应 用 ， 也 称 作 软件 即 服务 (software as a service，SaaS)， 可 以 从 数 以 百 
万 计 的 相互 独立 的 交互 式 Internet 服务 用 户 中 获 利 。 在 SaaS 中 ， 读 和 写 之 间 依 赖 关系 很 少 ， 所 
以 SaaS 基本 上 不 使 用 同步 操作 。 例 如 ， 查 找 操作 只 使 用 一 个 只 读 的 索引 ， 电 子 邮 件 通常 是 读 
和 写 独 立 的 信息 。 我 们 将 这 种 简单 的 并 行 称 作 请 求 级 并 行 (request-level parallelism) ， 因 为 很 
多 独立 的 工作 可 以 很 自然 地 执行 ， 并且 只 需要 很 少 的 通信 和 同步 操作 。 


允 ”软件 即 服务 : 相 比 于 出 售 那些 安装 并 运行 在 用 户 计 算 机 上 的 软件 ， 软 件 是 运行 在 远程 的 一 
个 站 点 上 的 ， 并 且 是 通过 Internet (通常 是 面向 用 户 的 网 页 接口 ) 向 用 户 提 供 服务 。SaaS 
用 户 是 基于 是 否 使 用 而 非 是 否 拥有 来 收费 的 。 


2) 经 营 成 本 : 传统 上 ， 服 务 器 架构 师 通 常 在 有 限 的 开销 上 设计 可 以 达到 最 佳 性 能 的 系统 ， 
并 且 要 时 刻 确保 冷却 系统 的 容量 不 会 超过 它 的 额定 面积 。 他 们 经 常 忽 略 服务 器 的 经 营 开销 ， 就 
像 经 营 开销 和 购买 的 开销 比 起 来 暗淡 无 光一 样 。WSC 拥有 更 长 的 寿命 一 一 建筑 和 电力 以 及 冷 
却 系统 通常 使 用 超过 10 年 的 分 期 付款 来 购买 一 一 所 以 经 营 成 本 加 起 来 : 能 耗 、 电 源 分 布 和 冷 
却 系统 在 这 10 年 中 总 共 超 过 WSC 价格 的 30% 。 

3) 规模 以 及 规模 带 来 的 机 遇 和 问题 : 为 了 建造 一 个 WSC， 你 必须 购买 100 000 侣 服务 右 





以 及 相关 的 设施 ， 这 意味 着 会 有 总 额 折 扣 。 因 此 ，WSC 的 内 部 如 此 庞大 以 至 于 即使 没有 很 多 
的 WSC 你 也 会 得 到 规模 经 济 。 这 种 规模 经 济 导致 了 云 计算 (cloud computing) 出 现 ， 因 为 每 
个 单元 更 低 的 花费 意味 着 云 计 算 公 司 可 以 用 比 用 户 自己 购买 这 些 服务 更 低 的 价格 将 服务 出 
租 给 用 户 以 获得 利润 。 规 模 经 济 的 负面 影响 就 是 需要 解决 这 种 规模 下 的 故障 率 。 即 使 一 个 
服务 器 有 着 高 达 25 年 (200 000 小 时 ) 的 平均 无 故障 时 间 (mean time to failure) ，WSC 架构 
师 也 要 考虑 每 天 会 出 现 5 个 服务 器 故障 的 可 能 。5. 15 节 提 到 了 Google 测试 得 到 的 年 均 磁盘 
故障 率 ( AFR) 为 2% ~4% 。 如 果 每 个 服务 器 有 4 个 磁盘 并 且 它 们 的 年 均 故 障 率 为 2% ， 
WSC 架构 师 应 该 每 小 时 都 发 现 一 个 磁盘 故障 。 因 此 ， 容 错 性 对 于 WSC 架构 师 比 服务 器 架构 
师 要 重要 得 多 。 

WSC 带 来 的 规模 经 济 使 得 长 久 以 来 人 们 梦 宁 以 求 的 将 计算 变 成 一 种 设施 的 梦想 成 为 现实 。 
云 计 算 意味 着 任何 有 好 的 想法 、 一 个 商业 模式 以 及 一 个 信用 卡 的 人 都 可 以 在 任何 地 点 使 用 数 以 
千 计 的 服务 器 向 全 世界 传播 他 的 想法 。 当 然 ， 也 存在 阻挡 云 计算 发 展 的 障碍 一 一 例如 安全 、 隐 
私 、 标 准 化 以 及 Intemet 带宽 的 增长 率 一 一 但 是 我 们 可 以 预见 这 些 障 碍 都 会 被 解决 ， 并 且 WSC 
和 云 计算 终 将 繁荣 起 来 。 

考虑 到 云 计 算 的 发 展 率 ，2012 年 亚马逊 网 络 服务 宣布 它 每 天 都 会 增加 相当 于 2003 年 亚 马 
逊 的 所 有 设施 的 服务 器 数量 ， 那 时 候 亚马逊 是 一 个 拥有 6 000 名 员工 的 年 收入 额 为 52 亿美 元 的 
公司 。 

对 于 云 计算 而 言 ， 现 在 我 们 理解 了 消息 传递 机 制 多 处 理 器 的 重要 性 ， 接 下 来 要 介绍 将 
WSC 中 个 节点 连接 起 来 的 方法 。 归 功 于 摩尔 定律 和 每 芯片 上 不 断 增加 的 核 数 ， 我 们 现在 在 芯 
片 内 部 也 需要 互联 网 络 ， 所 以 这 些 拓 扑 结构 无 论 在 小 规模 计算 机 上 还 是 大 规模 计算 机 上 都 很 
重要 。 


车， 精 解 MapReduce 架构 在 Map 阶段 的 最 后 将 关键 值 对 进行 移动 和 分 类 ， 并 生成 所 有 共享 相 
同 关键 值 的 组 。 然 后 这 些 组 会 被 传递 给 Reduce 阶段 。 

o 吕 精 解 ” 另 一 种 大 规模 计算 是 网 格 计算 (grid computing) ， 所 有 计算 机 被 分 布 在 很 大 的 范围 
之 内 ， 运行 于 其 上 的 软件 通过 长 距离 的 网 络 进行 通信 。 最 常见 并 且 特 殊 的 网 格 计算 形式 要 
属 SETI@ home 项 目 设 计 的 。 当 数 以 百 万 计 的 计算 机 在 空 闪 的 时 候 ， 若 有 人 开发 了 一 个 可 
以 使 用 这 些 计算 机 的 软件 ， 并 且 将 能 够 将 任务 分 成 独立 的 部 分 分 配给 这 些 计算 机 运行 ， 这 
些 计算 机 就 会 被 征集 起 来 并 获得 很 好 的 利用 。 最 早 的 一 个 例子 是 搜索 地 外 文明 的 项 目 
( Search for ExtraTerrestrial Intelligence，SETI) ， 该 项 目 是 在 1999 年 在 加 州 大 学 伯克利 分 校 
启动 的 。 超 过 200 个 国家 的 500 万 计算 机 用 户 签署 了 SETI@ home 项 目 ， 其 中 有 超过 50% 
的 非 美 国 用 户 。 到 2011 年 年 底 ，SETI@ home 网 格 计算 的 平均 性 能 为 3. 5PetaFLOPS。 


配 ] 小 测验 
1. 是 非 判断 题 : 同 SMP 相同 ， 消 息 传递 机 制 的 计算 机 基于 锁 来 进行 同步 操作 。 
2. 是非 判 断 题 : 集群 有 独立 的 存储 器 ， 所 以 每 个 都 有 一 份 操作 系统 的 副本 。 


6.8 多 处 理 器 网 络 拓扑 简介 


多 核 芯片 需要 使 用 片上 网 络 将 各 个 核 连接 到 一 起 ， 集 群 需要 局 域 网 将 服务 器 连接 到 一 起 。 
本 节 讨 论 不 同 互联 网 络 拓扑 的 优点 与 缺点 。 

网 络 成 本 包括 开关 的 数量 、 每 个 开关 连接 到 网 络 上 的 链 路 数量 、 每 条 链 路 的 宽度 〈 比 特 
数 ) 以 及 网 络 映射 到 芯片 时 链 路 的 长 度 。 例 如 ， 某 些 核 或 服务 器 可 能 是 相 邻 的 ， 而 其 他 的 可 能 
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在 芯片 或 数据 中 心 的 另 一 端 。 网 络 性 能 也 是 多 方面 的 。 它 包括 在 一 个 无 负载 的 网 络 中 发 送 和 接 
收 销 息 的 延迟 ， 按 照 在 给 定时 间 周 期 内 能 够 传输 的 最 大 消息 数量 所 给 出 的 春 吐 量 ， 由 于 网 络 冲 
突 导致 的 延迟 ， 以 及 由 通信 模式 决定 的 可 变性 能 。 网 络 的 另 一 责任 是 容错 ， 因 为 系统 可 能 需要 
在 存在 部 件 受 损 的 情况 下 继续 工作 。 最 后 ， 在 这 芯片 设计 受 能 耗 限 制 的 时 代 里 ， 不 同 组 织 结构 
具有 不 同 功效 ， 能 耗 可 能 超越 其 他 考虑 因素 而 成 为 主导 因素 。 

网 络 通常 绘制 为 图 形 表 示 ， 图 中 的 每 条 边 表示 通信 网 络 中 的 一 条 链 路 。 在 本 章 的 图 中 ,处 
理 器 - 存储 器 节点 用 一 个 黑色 方块 表示 ， 而 开关 用 一 个 灰色 圆 形 表示 。 我 们 假设 所 有 链 路 都 是 
双向 的 ; 也 就 是 说 ， 信 息 可 以 向 两 个 方向 流动 。 所 有 网 络 都 由 开关 构成 ， 开 关 负 责 建立 处 理 
器 - 存储 器 节点 和 其 他 开关 的 链接 。 第 一 个 网 络 将 若干 节点 组 成 的 序列 连接 到 了 一 起 : 


I 
该 拓扑 叫 作 环 (ring) 。 由 于 一 些 节点 不 是 直接 连接 的 ， 一 些 信息 将 不 得 不 经 过 中 间 节 点 最 终 
到 达 目 标 节点 。 
和 总 线 不 同 
传输 。 
因为 有 众多 的 拓扑 可 以 选择 ， 所 以 需要 辨别 这 些 不 同 设计 的 性 能 度量 。 主 要 有 两 个 常用 的 
性 能 度量 。 第 一 个 是 总 网 络 带宽 network bandwidth) ， 它 是 每 条 链 路 带宽 与 链 路 数量 的 乘积 。 
该 度量 表示 带宽 的 峰值 。 对 于 上 面 的 环 网 络 ， 如 果 处 理 器 数量 为 P， 那 么 总 网 络 带宽 就 是 一 条 
链 路 带宽 的 己 倍 ;一 条 总 线 的 总 网 络 带宽 仅仅 是 该 总 线 的 带宽 。 


”网络 带宽 非 正 式 用 语 ， 用 于 表示 网 络 传输 速度 的 峰值 ; 既 可 以 指 单一 链 路 的 速度 ， 也 可 
以 指 网 络 中 全 部 链 路 的 共同 的 传输 速度 。 


为 了 不 只 评估 最 好 情况 下 的 性 能 ， 我 们 引入 一 个 接近 于 最 差 情况 的 度量 : 切 分 带宽 
(bisection bandwidth) 。 它 的 计算 是 通过 将 机 器 分 割 为 两 半 ， 然 后 将 跨越 假想 分 割 线 的 链 路 带宽 
加 起 来 。 环 的 切 分 带宽 是 链 路 带宽 的 两 倍 ， 是 总 线 链 路 带宽 的 一 倍 。 如 果 单一 链 路 和 总 线 一 样 
快 ， 那 么 环 在 最 差 情 况 下 是 总 线 速度 的 两 倍 ， 而 在 最 好 情况 下 是 总 线 的 己 倍 。 


忆 。 切 分 带宽 : 多 处 理 器 中 两 个 相等 部 分 之 间 的 带宽 。 这 种 测量 可 以 表示 对 多 处 理 器 的 最 差 拆 
分 情况 。 


某 些 网 络 拓扑 是 非 对称 的 ， 那 么 在 切 分 网 络 时 会 产生 一 个 问题 : 在 哪里 进行 假想 切 分 。 由 
于 切 分 带宽 是 一 个 针对 最 差 情 况 的 度量 ， 因 此 答案 就 是 选择 会 导致 最 差 网 络 性 能 的 切 分 方式 。 
换 句 话说 ， 就 是 计算 所 有 可 能 的 切 分 带宽 ， 然 后 选择 其 中 最 小 的 一 个 作为 最 终结 果 。 我 们 之 所 
以 选择 这 种 最 差 情 况 ， 是 因为 并 行程 序 常常 受 通信 链 中 最 薄弱 链 路 的 限制 。 

相对 于 环 的 另 一 个 极端 是 全 连接 网 络 (fully connected network) ， 其 中 每 个 处 理 器 都 与 其 他 处 
理 器 具有 一 个 双向 链 路 。 对 全 连接 网 络 ， 总 网 络 带 宽 是 已 x (已 -1)/2， 而 切 分 带宽 是 (P/2) 。 


信 。” 全 连接 网 络 ; 通过 专用 通信 和 链 路 连接 所 有 处 理 器 - 存储 器 节点 的 网 络 。 


全 连接 网 络 对 性 能 的 极 大 提升 被 成 本 的 急剧 增加 所 抵消 了 。 这 激励 工程 师 不 断 创造 出 介 于 
环 的 成 本 和 全 连接 网 络 的 性 能 之 间 的 新 型 拓扑 。 评 估 是 否 成 功 ， 很 大 程度 上 依赖 于 计算 机 上 所 
运行 的 并 行程 序 负载 的 通信 特征 。 

各 种 公开 发 布 的 不 同 拓扑 可 能 难以 计数 ， 但 是 只 有 少数 几 个 已 经 用 于 商业 并 行 处 理 顺 中 。 
图 6-14 给 出 了 两 种 常见 拓扑 。 








总 线 允 许 一 组 连 线 向 所 有 相连 的 节点 发 送 广播 一 一 坏 可 以 同时 进行 多 个 
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图 6-14 已 经 出 现在 商业 并 行 处 理 器 中 的 网 络 拓 
扑 。 其 中 灰色 圆 形 表示 开关 ， 而 黑色 方 


Ee 于 -| 于 四 块 表示 处 理 器 -存储 器 节点 。 尽 管 一 个 
赂 一 醒 可 项 邮 相 一 开关 可 以 有 多 个 链 路 ， 但 是 通常 只 有 一 
[Lm ei dh 个 连接 到 处 理 器 。 布尔 维 立方 体 拓扑 
门 惑 门 国门 用 广 2 是 一 个 使 用 2n 个 节点 构成 的 n 维 互 连 ， 
| /a 每 个 开关 需要 个 链 路 (并 加 上 一 个 
| 加 机 处 理 器 链 路 ) ， 因 而 存在 n 个 最 近 相 邻 
。) 16 个 各 训 的 2.D 网 相 结 机 。。b 8 个 节点 的 立方 节点 。 这 些 基本 拓扑 常常 会 补充 一 些 额 


TE 外 链 路 ， 从 而 提高 性 能 和 可 靠 性 


除了 在 网 络 中 每 个 节点 都 放置 一 个 处 理 器 之 外 ， 也 可 以 在 某 些 节 点 只 保留 开关 。 这 些 开关 
相对 处 理 器 -存储 器 - 开关 节点 更 小 ， 因 此 可 以 放置 得 更 密集 一 些 ， 进 而 缩短 距离 提高 性 能 。 
这 样 的 网 络 一 般 称 为 多 级 网 络 ( multistage network) ， 因 为 信息 需要 多 级 传输 才能 到 达 目的 地 。 
多 级 网 络 的 类 型 和 单 级 网 络 是 一 样 多 的 ; 图 6-15 给 出 了 两 种 常见 的 多 级 结构 。 全 连接 网 络 或 
交叉 开关 网 络 (crossbar network) 允许 任何 节点 一 次 就 可 以 通过 网 络 与 其 他 任何 节点 通信 。 
Omega 网 络 相对 交叉 开关 网 络 使 用 更 少 的 硬件 〈 前 者 需要 2nlogzn 个 开关 ， 后 者 需要 nw 个 开 [537 
关 ) ， 但 是 消息 之 间 可 能 会 发 生 冲 突 ， 这 取决 于 通信 模式 。 例 如 ， 图 6-15 中 的 Omega 网 络 在 从 
P。 向 P 发 送信 息 的 同时 ， 不 能 从 P, 向 P, 发 送信 息 。 


忆 多 级 网 络 : 每 个 节点 提供 一 个 小 开关 的 网 络 。 
人 了 交叉 开关 网 络 : 任何 一 个 需 一 次 即 可 与 其 他 任意 一 个 节点 通信 的 网 络 。 











a) 交叉 开关 b) Omega 网 络 


中 |> 
JIN 


c) Omega 网 络 开关 盒 
图 6-15 常见 的 八 节点 多 级 网 络 拓 扑 。 本 图 中 的 开关 相对 前 面 的 更 加 简单 ， 因 为 本 图 的 链 路 是 单 向 的 ; 
数据 从 左边 进入 ， 从 右边 的 链 路 退出 。 图 C 中 的 开关 盒 可 以 将 A 传送 到 C、 将 B 传送 到 DD, 或 
将 B 传送 到 C、 将 A 传送 到 D。 交 叉 开关 使 用 nw 个 开关 ， 其 中 是 处 理 器 的 数量 ,而 Omega 网 
络 需 要 2nlogyn 个 大 的 开关 盒 ， 其 中 每 个 开关 盒 逻 辑 上 由 4 个 更 小 的 开关 组 成 。 在 这 种 情况 下 ， 
交叉 开关 网 络 需 要 64 个 开关 ， 而 Omega 网 络 需 要 12 个 开关 盒 ， 相 当 于 48 个 开关 。 但 是 ， 交 叉 
开关 网 络 可 以 支持 处 理 器 消息 传递 的 任意 组 合 ， 而 Omega 网 络 却 不 能 
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网 络 拓扑 实现 


本 节 对 所 有 网 络 简单 分 析 的 时 候 ， 忽 略 了 在 网 络 构建 时 需要 考虑 的 实际 因素 。 在 高 速 时 钟 
下 , 链 路 的 距离 影响 通信 的 成 本 一 一 一 般 来 说 ， 距 离 越 长 ， 在 高 速 时 钟 下 的 成 本 越 大 。 较 短 的 
距离 也 会 更 加 容易 地 将 更 多 的 连 线 增加 到 同一 链 路 中 ， 因 为 连 线 越 短 ， 驱 动 连 线 的 能 耗 就 会 越 
低 。 较 短 的 连 线 也 比较 长 的 连 线 便宜 。 男 外 一 个 实际 限制 是 三 维 拓扑 连 线 必须 映射 到 芯片 的 二 
维 媒介 上 。 最 后 一 点 需要 考虑 的 是 能 耗 。 例 如 ， 能 耗 可 能 迫使 多 核 芯片 必须 采用 简单 网 格 拓 
扑 。 总 之 ， 在 黑板 上 画 上 很 美的 拓扑 ， 在 使 用 硅 工 艺 或 数据 中 心 制造 时 可 能 是 不 切实 际 的 。 

现在 我 们 已 经 了 解 了 集群 的 重要 性 ， 并 且 看 到 了 将 它们 连接 起 来 的 方法 ， 接 下 来 我 们 要 看 
一 看 网 络 与 处 理 器 的 软 硬 件 接口 。 


男人 小 测验 
是 非 判 断 : 对 于 一 个 有 尸 个 节点 的 环 ， 总 网 络 带宽 与 切 分 带宽 的 比 为 P/2。 


如 6.9 与 外 界 通信 : 集群 网 络 


这 个 网 上 章节 讲述 了 用 来 连接 集群 节点 的 网 络 硬 件 和 软件 。 例 子 中 使 用 了 采用 PCIe 连接 
到 计算 机 上 的 10Gb/s 的 以 太 网 。 这 个 例子 展示 了 软 硬 件 优 化 如 何 提升 互联 网 络 的 性 能 ， 包 括 
零 拷 贝 消息 传递 、 用 户 空间 通信 、 使 用 轮 询 机 制 代 替 WO 中 断 以 及 使 用 硬件 计算 校 验 总 和 。 尽 
管 例子 是 互联 网 络 ， 但 是 本 节 介 绍 的 这 些 技 术 也 可 以 应 用 到 存储 控制 器 和 其 他 的 IO 设备 。 

在 这 个 网 上 章节 中 从 底层 详细 讲述 了 互联 网 络 的 性 能 后 ， 下 节 从 更 高 的 层次 介绍 了 如 何 测 
试 评价 各 种 类 型 的 多 处 理 器 。 


6. 10 ”多 处 理 器 测试 集 程序 和 性 能 模型 


在 第 1 章 中 我 们 看 到 ， 基 准 测试 系统 一 直 是 一 个 敏感 话题 ， 因 为 它 是 判断 哪个 系统 更 好 的 
一 种 最 为 直观 的 方式 。 测 试 结果 不 仅 影响 商业 系统 的 销售 ， 而 且 影响 这 些 系统 设计 者 的 声誉。 
因此 ， 每 个 参加 测试 者 都 希望 自己 获胜 ， 但 是 如 果 别人 获胜 ， 他 们 也 希望 确信 获胜 者 的 系统 真 
正 是 一 个 更 好 的 系统 。 这 些 期 望 导致 测试 结果 不 能 只 是 针对 测试 程序 的 简单 伎俩 ， 而 应 该 能 够 
真正 促进 实际 应 用 程序 性 能 的 提高 。 
为 了 避免 可 能 的 作 星 ， 一 个 典型 的 原则 是 你 不 能 修改 基准 测试 程序 。 源 代码 和 数据 集 是 固 
定 的 ， 并 且 只 有 唯一 的 正确 结果 。 对 这 些 原则 的 任何 违反 都 会 使 得 测试 结果 无 效 。 
许多 多 处 理 器 基准 测试 程序 都 遵守 这 些 惯例 。 一 个 共同 的 例外 是 允许 增加 问题 规模 ， 这 样 
你 就 可 以 在 有 不 同 数量 处 理 器 的 系统 上 运行 。 也 就 是 说 ， 许 多 基准 测试 程序 允许 弱 比 例 缩放 而 
不 是 强 比例 缩放 ， 但 即便 如 此 ， 在 比较 不 同 问题 规模 的 程序 结果 时 仍 要 小 心 。 
图 6-16 是 对 几 种 并 行 基准 测试 程序 的 总 结 。 描 述 如 下 : 
。 Linpack 是 一 组 线性 代数 例 程 ， 这 些 例 程 执行 高 斯 消 元 。 前 面 示例 中 给 出 的 DGEMM 例 
程 就 是 Linpack 基准 测试 程序 中 的 一 小 部 分 代码 片段 ， 但 是 它 占 用 了 该 基准 测试 程序 的 
大 部 分 执行 时 间 。 它 允许 弱 比 例 缩放 ， 让 用 户 选择 任何 规模 的 问题 。 而 且 ， 它 允许 使 
用 者 以 几乎 任何 形式 和 任何 语言 重 写 Linpack， 只 要 保持 计算 结果 的 正确 性 以 及 对 于 同 
样 规模 大 小 的 问题 进行 相同 次 数 的 浮 点 运算 。 每 隔 两 年 计算 Linpack 最 快 的 500 台 计算 
机 会 公布 在 www. top500. org 上 。 排 名 第 一 的 被 新 闻 界 认为 是 世界 上 最 快 的 计算 机 。 
e SPECrate 是 一 个 基于 SPEC CPU 基准 测试 程序 (如 SPEC CPU 2006， 见 第 1 章 ) 的 吞吐 
量度 量 。SPECrate 不 是 报告 单个 程序 的 性 能 ， 而 是 同时 运行 该 程序 的 很 多 副本 。 因 此 ， 
它 主要 测量 任务 级 并 行 ， 因 为 这 些 任务 之 间 没 有 通信 。 程 序 的 副本 数量 是 不 受 限制 的 ， 
因此 这 也 是 弱 比 例 缩放 的 形式 。 
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e SPLASH 和 SPLASH 2 (Stanford Parallel Applications for Shared Memory) 是 20 世纪 90 年 
代 斯 坦 福 大 学 的 研究 成 果 ， 目 的 是 提供 类 似 于 SPEC CPU 一 样 的 并 行 基准 测试 程序 。 
它 由 核心 程序 和 应 用 程序 构成 ， 许 多 都 来 自 高 性 能 计算 领域 。 尽 管 该 程序 提供 了 两 组 
数据 集 ， 但 仍 需要 强 比例 缩放 。 

e NAS (NASA Advanced Supercomputing) 并 行 基准 测试 程序 是 20 世纪 90 年 代 以 来 对 多 
处 理 器 基准 测试 程序 的 另 一 尝试 。 它 由 5 个 核心 程序 构成 ， 都 是 来 源 于 流体 动力 学 。 
它 人 允许 通过 定义 几 个 数据 集 实现 弱 比 例 缩放 ， 像 Linkpack ， 这 些 基 准 测试 程序 可 以 被 
重 写 ， 但 是 编程 语言 只 能 使 用 C 或 Fortran。 

e 最 近 的 PARSEC (Princeton Application Repository for Shared Memory Computer) 基准 测试 
程序 集 由 采用 Pthread (POSIX 线程 ) 和 OpenMP ( Open MultiProcessing， 见 6.5 节 ) 
的 多 线程 程序 组 成 。 人 它们 主要 专注 于 计算 领域 ， 由 9 个 应 用 程序 和 3 个 核 构成 。 其 中 8 
个 依赖 数据 并 行 ，3 个 依赖 流水 并 行 ， 另 外 一 个 依赖 非 结构 化 并 行 。 

e 在 云 的 前 端 ，Yahoo! Cloud Serving Benchmark (YCSB) 的 目标 是 比较 云 数 据 服 务 的 性 
能 。 它 通过 使 用 Cassandra 和 HBase 作为 具有 代表 性 的 例子 ， 提 供 了 一 个 易于 让 用 户 评 
测 新 数据 服务 的 框架 。[ Cooper，2010] 


2 ”Pthread: 创建 和 操作 线程 的 一 个 UNIX API。 它 被 组 织 成 一 个 库 的 形式 。 
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稠密 矩阵 线性 代数 [ Dongarra，1979] 


| 具 立 任务 并 行 化 Henning，2007] 


复杂 1D FFT 
模块 化 LU 分 解 
模块 化 稀 玻 丘 拉 斯 基 分 解 
整数 基数 排序 
面向 共享 存储 器 的 巴尔 内 斯 小 屋 
斯 坦 福 并 行 应 用 适应 性 快速 多 极 算法 
SPLASH2 [Woo et al. 1995 ] 海洋 仿真 
光线 跟踪 
声音 这 染 器 
空间 数据 结构 的 水 仿真 
非 空间 数据 结构 的 水 仿真 


EP: 非 多 间 数据 结构 的 水 仿真 
ee MG: 简化 的 多 重 网 格 计 
NAS 并 行 Benchmark 是 (只 能 是 C 或 | CG， 面向 共 虑 梯度 方法 的 非 结构 化 网 格 











| Bailey et al. ,1995 | Fortran ) FT: 使 用 FFT 的 3-D 偏 微分 方程 
IS: 大 型 整数 排序 


Blackscholes 一 一 使 用 毕 苏 期 权 定价 模式 的 期 
权 定 价 
Bodytrack 一 一 人 体 跟 踪 
Canneal 一 一 使 用 cache 感知 的 模拟 退火 进行 
布线 优化 
Dedup 一 一 采用 数据 去 重 的 下 一 代 压 缩 
PARSEC Benchmark 集 二 Facesim 一 一 人 脸 运动 仿真 
[ Bienia et al. 2008] Ferret 一 一 内 容 相 似 性 搜索 服务 器 
Fluidanimate 一 一 SPH 方法 的 流体 动力 学 动画 
Freqmine 一 一 常见 物品 集合 的 数据 挖掘 
Streamcluster 一 一 输入 流 的 在 线 分 类 
Swaptions 一 一 Prnicing of a portfolio of swaptions 
Vips 一 一 图 像 处 理 
x264 一 一 H. 264 视频 编码 


6-16 并行 基准 测试 程序 的 实例 
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基准 测试 程序 可 扩展 性 可 编程 性 | 


有 限 状 态 机 

组 合 逻 辑 

图 的 遍历 

结构 化 网 格 

稠密 矩阵 
利 设 计 稀 玖 矩阵 

LU a 强 或 别 是 波谱 法 

| 动态 程序 设计 

N 体 问题 

MapReduce;( 云 计算 架构 的 一 个 专 有 名词) 

反 向 跟踪 /分 支 与 边界 

图 模型 推导 

非 结 构 化 网 格 























图 6-16 ( 续 ) 


基准 测试 程序 原 有 约束 所 造成 的 负面 影响 是 创新 被 局 限 到 体系 结构 和 编译 器 中 。 更 好 的 数 
据 结构 、 算 法 、 编 程 语言 等 通常 不 能 使 用 ， 因 为 这 些 可 能 导致 容易 误解 的 结果 。 这 样 系统 可 能 
不 是 由 于 硬件 或 编译 器 的 原因 获得 更 高 性 能 ， 例 如 算法 。 

尽管 这 些 准 则 在 计算 基础 相对 稳定 时 是 可 以 理解 的 一 一 因为 它们 是 在 20 世纪 90 年 代 提出 
的 ， 而 且 是 在 90 年 代 的 前 5 年 一 一 但 是 ， 这 些 准则 在 编程 变革 中 就 不 合 时宜 了 。 为 了 变革 的 
成 功 ， 我 们 需要 鼓励 在 所 有 层次 上 的 创新 。 

加 利 福 尼 亚 大 学 伯克利 分 校 的 研究 人 员 提 出 了 一 个 最 新 的 方法 。 他 们 确定 了 13 个 面向 未 
来 应 用 程序 的 设计 模式 。 这 些 设计 模式 使 用 框架 或 核心 实现 。 一 些 实例 包括 稀 玻 敌阵 、 结 构 化 
网 格 、 有 限 状 态 机 、 映 射 规约 和 图 遍历 等 。 通 过 将 定义 保持 在 高 级 别 层次 ， 他 们 和 希望 鼓励 在 系 
统 的 任何 层次 进行 创新 。 因 此 ， 速 度 最 快 的 稀 玻 矩阵 求解 器 的 系统 除了 使 用 新 型 体系 结构 和 编 
译 右 之 外 ， 还 可 以 使 用 任何 数据 结构 、 算 法 和 编程 语言 。 


6. 10. 1 性 能 模型 


和 测试 集 程序 相关 的 一 个 话题 就 是 性 能 模型 。 就 像 我们 在 本 章 中 看 到 的 不 断 增 加 的 体系 结 
构 多 样 性 一 一 多 线程 、SIMD 、GPU 一 一 如 果 我 们 能 拥有 一 个 简单 的 模型 来 分 析 不 同体 系 结构 设 
计 的 性 能 ， 将 是 十 分 有 益 的 。 这 个 模型 不 需要 是 完美 的 ， 只 要 有 所 见地 就 行 。 

第 5 章 的 对 于 cache 性 能 测试 的 3C 模型 是 一 个 性 能 模型 的 例子 ， 它 并 不 是 一 个 完美 的 
性 能 模型 ， 因 为 它 忽略 了 一 些 潜在 的 重要 因素 ,如 块 尺寸 大 小 、 块 分 配 策略 和 块 替 换 策略 。 
而 且 ， 它 还 含有 一 些 含 糊 其 辞 的 地 方 。 例 如 ， 在 一 个 设计 中 缓存 缺失 的 原因 可 能 是 因为 容 
量 , 但 在 男 一 个 相同 大 小 的 缓存 中 可 能 是 因为 冲突 。 然 而 3C 模型 已 经 流行 了 25 年 ， 因 为 它 
提供 了 深刻 理解 程序 行为 的 一 个 途径 ， 有 助 于 体系 结构 设计 者 和 程序 员 基于 模型 的 洞察 来 
改进 他 们 的 创新 。 

为 了 找到 这 样 一 个 并 行 计算 机 的 模型 ， 让 我 们 从 小 的 核心 程序 开始 ， 就 像 图 6-16 中 的 13 
个 Berkeley 设计 模式 。 尽 管 这 些 核心 程序 的 不 同 数据 类 型 有 许多 版 本 ， 但 是 浮 点 在 几 种 实现 中 
是 最 常见 的 。 因 此 ， 在 给 定 的 计算 机 上 峰值 浮 点 性 能 是 这 类 核心 程序 的 速度 瓶 开 。 对 于 多 核 芒 
片 ， 峰 值 浮 点 性 能 是 芯片 上 所 有 处 理 器 核 峰 值 性 能 的 总 和 。 如 果 系 统 中 包含 多 处 理 器 ， 那 么 应 
当 将 每 芯片 的 峰值 性 能 与 芯片 数量 相 乘 。 

对 存储 器 系统 的 需求 可 以 用 峰值 浮 点 性 能 除 以 每 访问 一 字 节 所 包含 浮 点 操作 数 的 平均 值 来 
估算 : 





浮 点 操作 数 / 秒 = 浮 点 操作 数 / 字 节 = 字 节 /7/ 秒 
存储 器 每 访问 一 字 节 所 包含 的 浮 点 操作 比例 称 作 算 术 密 度 (arithmetic intensity) 。 它 的 计 
算 可 以 用 程序 中 总 的 浮 点 操作 数 除 以 程序 执行 期 间 主 存 传输 数据 总 的 字 节 数 。 图 6-17 给 出 了 
图 6-16 中 几 种 Berkeley 设计 模式 的 算术 密度 。 


2 算术 密度 : 一 个 程序 中 浮 点 操作 数量 与 访问 主 存 字 节 数量 的 比值 。 








O (log CN) ) ON) 








N-body 
(粒子 方法 ) 


密集 矩阵 


稀 玖 矩阵 ”结构 网 格 。 | 结构 网 格 ” 叶 变换 (BLAS3) 


( 稀 玖 和 矩阵 模板 偏 (Lattice 
向 量 乘 ) 微分 方程 ) 方法 ) 


图 6-17 算术 密度 ， 计 算 方 式 为 用 运行 程序 中 总 的 浮 点 操作 数 除 以 访问 主 存 总 的 字 节 数 [Williams， 
Patterson，2009] 。 一 些 核心 程序 的 算术 密度 与 问题 规模 成 比例 扩展 ， 如 Dense Matrix, 但 是 也 
有 许多 核心 程序 与 问题 规模 无 关 。 对 于 前 者 ， 弱 比例 缩放 会 导致 不 同 的 结果 ， 因 为 它 对 存储 系 
统 的 需求 不 是 很 大 


6. 10.2 ”Roofline 模型 


本 节 提 出 的 简单 模型 将 浮 点 性 能 、 算 术 密 度 和 存储 性 能 联系 在 一 个 二 维 图 中 [ Williams， 
Waterman ，Patterson ，2009 ] 。 峰 值 浮 点 性 能 可 以 在 上 面谈 到 的 硬件 规格 说 明 书 中 找到 。 我 
们 这 里 考虑 的 核心 程序 的 工作 集 不 适合 使 用 片上 缓存 ， 因 此 峰值 存储 器 性 能 可 以 使 用 缓存 
之 后 的 存储 器 来 定义 。 获 得 峰值 存储 性 能 的 一 种 方法 是 使 用 Stream 基准 测试 程序 。( 见 第 5 
章 的 精 解 。) 

图 6-18 给 出 了 针对 一 台 计算 机 的 模型 ， 注 意 不 是 针对 每 个 核心 程序 的 模型 。 纵 轴 Y 表示 
浮 点 性 能 ， 从 0.5 到 64.0 GFLOPs/s。 横 轴 X 表示 算术 密度 ， 从 1/8 FLOPs/DRAM 字 节 到 16 
FLOPs/DRAM 字 节 。 注 意 该 图 采用 log-log 的 比例 。 


64.0 = 












图 6-18 ”Roofline 模型 [ Williams，Waterman， 

32.0 ee | | Patterson ，2009]。 本 例 具有 16GFLOPS/s 
es, 的 峰值 浮 点 性 能 和 16GB/s 的 峰值 存储 

160 和 带宽 ， 该 数据 来 自流 测试 程序 由 于 
全 EE 流 实际 上 是 4 次 测量 ， 图 中 的 线 是 4 
证 80| -| | — 次 的 均值 ) 。 左 边 的 灰色 点 垂 线 标 识 内 
核 1， 其 计算 密度 为 0.5FLOPs/byte。 在 
号 40 | Operon X2 上 ， 受 限于 低 于 8GFLOPS/s 的 
中 存储 器 带宽 。 右 边 的 点 垂 线 标识 内 核 
苔 20 2, 计算 密度 为 4FLOPs/byte， 它 只 受 


限于 16GFLOPS/s 的 计算 。( 该 数据 基 
于 AMD Opteron X2 (版 本 了 F) ， 使 用 运 
行 在 双 socket 系 统 中 的 2GHz 的 双核 ) 


16 


JB 4 i 1 2 4 8 
算术 密度 : FLOPs/ 字 节 比 
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对 给 定 的 核心 程序 ， 我 们 可 以 基于 其 算术 密度 在 X 轴 找 到 对 应 点 。 如 果 我 们 在 该 点 画 一 条 
垂直 线 ， 那 么 该 核心 程序 在 计算 机 上 的 性 能 一 定 在 该 垂直 线 的 某 个 位 置 上 。 我 们 可 以 画 一 条 水 
平 线 表示 该 计算 机 的 峰值 浮 点 性 能 。 显 然 ， 实 际 的 浮 点 性 能 不 会 超过 该 水 平 线 ， 因 为 这 是 一 个 
硬 界限 (hardware limit ) 。 

我 们 如 何 画 出 峰值 存储 性 能 呢 (单位 为 字 节 / 秒 )? 由 于 X 轴 是 FLOPs/byte，Y 轴 是 
FLOPs/s， 所 以 byte/s 只 是 图 中 一 条 45° 的 对 角 线 。 因 此 ， 我 们 画 出 第 三 条 线 来 表示 对 于 给 定 的 
算术 密度 该 计算 机 存储 系统 所 能 支持 的 最 大 浮 点 性 能 。 我 们 可 以 用 下 面 的 公式 表示 该 界限 ， 以 
便 在 图 6-18 中 画 出 该 线 : 

可 达到 的 GFLOPs/s = Min( 峰值 存储 器 带宽 x 算术 密度 ,峰值 浮 点 性 能 ) 

水 平 线 和 对 角 线 给 出 了 简单 模型 的 名 称 并 标 出 了 对 应 值 。 这 个 像 屋 顶 一 样 的 轮廓 线 设 定 了 
一 个 核心 程序 在 不 同 算术 密度 下 的 性 能 上 界 。 给 定 一 个 计算 机 的 Roofline 模型 ， 你 可 以 重复 地 
使 用 它 ， 因 为 它 不 会 随 核心 程序 而 变化 。 

如 果 我 们 认为 算术 密度 是 支撑 屋顶 的 一 个 杆 ， 那 么 它 要 么 支撑 屋顶 的 平坦 部 分 ， 这 表示 性 
能 受 计算 限制 ; 要 么 支撑 屋顶 的 倾斜 部 分 ， 这 表示 性 能 受 存储 器 带宽 限制 。 在 图 6-18 中 ， 核 
心 程序 1 属于 前 者 ， 而 核心 程序 2 属于 后 者 。 

需要 注意 的 是 “ 冰 点 ”， 它 是 屋顶 平坦 部 分 与 倾斜 部 分 的 交 又 点 ， 这 对 计算 机 来 说 是 一 个 
关键 点 。 如 果 它 过 于 靠 右 ， 那 么 只 有 极 高 算术 密度 的 核心 程序 才能 获得 最 大 性 能 。 如 果 它 过 于 
靠 左 ， 那 么 几乎 所 有 核心 程序 都 可 以 达到 最 大 性 能 。 


6. 10. 3 两 代 Opteron 的 比较 


四 核 的 AMD Opteron X4 (Barcelona) 是 两 核 Opteron X2 的 后 续 版 本 。 为 了 简化 主板 设计 ， 
它们 使 用 了 相同 的 插座 。 因 此 ， 它 们 具有 相同 的 DRAM 通道 ， 也 就 具有 相同 的 峰值 存储 带宽 。 
除了 将 核心 程序 数量 加 倍 之 外 ，Opteron X4 还 将 每 核 的 峰值 浮 点 性 能 提高 到 原来 的 两 售 : 
Opteron X4 核 每 时 钟 周期 可 发 射 两 条 浮 点 SSE2 指令 ， 而 Opteron X2 核 最 多 只 能 发 射 一 条 。 由 
于 我 们 比较 的 两 个 系统 具有 接近 的 时 钟 频率 一 一 Opteron X2 为 2.2GHz，Opteron X4 为 
2. 3GHz 所 以 Opteron X4 的 峰值 浮 点 性 能 是 Opteron X2 的 4 倍 ， 而 两 者 DRAM 带宽 完全 相 
同 。Opteron X4 还 有 2MiB 的 三 级 缓存 ， 而 Opteron X2 没有 。 

图 6-19 比较 了 两 个 系统 的 Roofline 模型 。 正 如 我 们 所 期 望 的 那样 ， 兰 点 向 右 进行 了 移动 ， 
从 Opteron X2 的 1 移 到 了 .Opteron X4 的 5。 因 此 ， 为 了 看 到 下 一 代 Opteron 处 理 器 性 能 的 改进 ， 
核心 程序 的 算术 密度 必须 大 于 1， 或 者 核心 程序 的 工作 集 必 须 适 合 Opteron X4 的 缓存 。 








128.0 Opteron X4 (Barcelona) 

64.0 ls 
名 32.0 - 6-19 两 代 Opteron 的 Roofline 模型 。Opter- 
S160 | 上 一 上 on X2 的 屋顶 线 与 图 6-18 相同 ， 使 用 
包 人 黑色 绘制 ， 而 Opteron X4 的 屋顶 线 使 
总 | 用 灰色 绘制 。Opteron X4 更 大 的 肴 点 
时 40| 一 Opteron X2 意味 着 原来 在 Opteron X2 中 是 计算 受 
区 限 的 核心 程序 在 Opteron X4 中 可 能 是 

存储 性 能 受 限 
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Roofline 模型 给 出 了 性 能 的 上 界 。 假 设 你 的 程序 远 远 低 于 该 上 界 ， 那 么 你 应 进行 哪些 优化 
呢 ? 这 些 优 化 的 优先 级 顺序 是 什么 ? 

为 了 克服 计算 瓶颈 ， 下 面 的 两 种 优化 可 以 改进 几乎 任何 核心 程序 : 

1) 浮 点 操作 混合 。 对 一 台 计 算 机 而 言 ， 峰 值 浮 点 性 能 一 般 需 要 几乎 同时 到 达 的 等 量 加 法 
和 乘法 。 这 种 均衡 不 仅 是 因为 计算 机 支持 融合 的 乘 加 指令 ( 见 第 3 章 的 精 解 ) ， 也 因为 浮 点 单 
元 具有 相同 数量 的 浮 点 加 法 器 和 浮 点 乘法 器 。 最 佳 性 能 也 需要 大 部 分 浮 点 操作 和 非 整 数 指令 
混合 。 

2) 提高 指令 级 并 行 并 应 用 SIMD。 对 当代 的 体系 结构 ， 最 高 性 能 在 每 个 时 钟 周 期 取 指 、 执 
行 并 提交 3 ~4 条 指令 时 才能 获得 ( 见 4. 10 节 )。 这 一 步 的 目标 是 从 编译 器 上 改进 代码 来 增加 
LP。 一 种 方法 是 循环 展开 ， 就 像 我 们 在 4. 12 节 看 到 的 。 对 x86 体系 结构 而 言 ， 一 个 单一 的 
AVX 指令 可 以 对 4 个 双 精 度 操 作 数 进行 操作 ， 因 此 它们 应 该 被 尽量 使 用 ( 见 3.7 节 和 3.8 节 ) 。 

为 了 克服 存储 瓶颈 ， 可 以 采用 下 面 的 两 种 优化 方法 : 

1) 软件 预 取 指 (software prefetching) 。 最 高 性 能 通常 需要 保持 许多 存储 器 操作 一 直 运 行 ， 
这 使 得 通过 执行 软件 预 取 指令 来 预测 访 存 更 加 容易 ， 而 不 用 等 到 计算 需要 该 数据 时 才 进 行 
访 存 。 

2) 内 存 关联 (memory affinity) 。 现 在 大 多 数 的 微 处 理 器 都 在 片 内 包含 了 内 存 控制 器 ， 它 
能 提高 存储 器 层次 的 性 能 。 如 果 系 统 中 含有 多 个 芯片 ， 这 就 会 使 一 些 地 址 访问 本 地 DRAM， 而 
其 他 地 址 需要 通过 芯片 互 连 才 能 访问 对 于 其 他 芯片 是 本 地 的 DRAM。 这 种 分 割 导致 了 我 们 在 
6.5 节 介 绍 的 非 一 致 性 访 存 。 通 过 另 一 个 芯片 进行 访 存 会 降低 性 能 。 第 二 种 优化 方法 是 分 配 数 
据 后 尽量 让 线程 操作 属于 同一 存储 器 - 处 理 器 对 上 的 数据 ， 这 样 处 理 器 几乎 不 会 访问 其 他 芯片 
上 的 存储 器 。 

Roofline 模型 可 以 帮助 决定 选用 哪些 优化 ， 以 及 优化 的 实施 顺序 。 我 们 可 以 认为 这 些 优化 
方法 中 的 每 一 个 都 是 适当 屋顶 线 下 面 的 一 层 “ 天 花 板 ”， 也 就 是 说 ， 在 没有 实施 相应 优化 的 情 
况 下 不 能 突破 该 层 天 花 板 。 

计算 性 能 屋顶 线 可 以 在 手册 中 找到 ， 而 存储 屋顶 线 则 可 以 通过 运行 流 基准 测试 程序 获得 。 
计算 性 能 天 花 板 ， 如 浮 点 均衡 ， 也 可 来 自 该 计算 机 的 手册 。 存 储 天 花 板 ,例如 存储 器 关联 ， 需 
要 在 每 台 计 算 机 上 运行 实验 ， 从 而 决定 它们 之 间 的 间隙 。 一 个 好 消息 是 这 一 过 程 在 每 台 计 算 机 
上 只 需 进 行 一 次 ， 只 要 有 人 完成 了 对 该 计算 机 天 花 板 的 评估 ， 任 何人 都 可 以 将 该 结果 用 于 指导 
该 计算 机 优化 的 先后 次 序 。 

图 6-20 相对 于 图 6-18 中 的 屋顶 线 模型 增加 了 和 天花板， 其 中 上 图 给 出 了 计算 天 花 板 ， 下 图 
给 出 了 存储 带宽 天 花 板 。 尽 管 较 高 的 天 花 板 没 有 标记 ， 但 是 其 隐 含 使 用 了 全 部 优化 手段 ; 为 了 
突破 最 高 的 天 花 板 ， 首 先 必须 突破 所 有 下 面 的 天 花 板 。 

天 花 板 之 间 间 隙 的 宽度 和 下 一 个 更 高 的 限制 表示 优化 之 后 的 收益 。 因 此 ， 图 6-20 建议 优 
化 2 和 4。 其 中 2 是 改善 LP， 对 于 改善 该 计算 机 的 计算 有 很 大 益处 ; 4 是 改善 内 存 关联 ， 对 于 
改善 该 计算 机 的 存储 带宽 有 很 大 益处 。 

图 6-21 将 图 6-20 中 的 天 花 板 整合 到 一 张 图 中 。 核 心 程序 的 算术 密度 决定 了 优化 的 区 域 ， 
优化 区 域 反 过 来 又 给 出 了 哪些 优化 手段 可 以 尝试 。 需 要 注意 的 是 ， 对 大 多 数 算 术 密度 ， 计 算 优 
化 和 存储 带宽 优化 都 是 重 和 到 的 。 图 6-21 中 有 三 处 不 同 的 阴影 标记 ， 用 于 区 分 不 同 的 优化 策略 。 
例如 ， 核 心 程序 2 落 在 右边 灰色 梯形 区 域 ， 表 示 只 工作 在 计算 优化 上 。 核 心 程序 1 落 在 灰色 与 
浅 灰色 平行 四 边 形 区 域 ， 表 示 两 种 优化 均 可 尝试 。 而 且 ， 它 建议 从 优化 2 和 优化 4 开始。 注意 
到 核心 程序 1 的 垂直 线 低 于 浮 点 失衡 优化 ， 因 此 优化 工 是 没有 必要 的 。 如 果 核 心 程序 落 在 左下 
角 的 浅 灰色 三 角形 区 域 ， 则 表示 只 需 进 行 存储 优化 即 可 。 
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图 6-20 带 有 天 花 板 的 Roofline 模型 。 其 中 上 面 的 图 表示 计算 性 能 的 “天 花 板 "，1 表示 浮 点 操作 混合 失 
衡 情 况 下 性 能 为 8GFLOPs/s，2 表示 同时 未 使 用 ILP 和 SIMD 下 的 性 能 为 2GFLOPs/s。 下 面 的 图 
表示 存储 带宽 的 天 花 板 ， 其 中 3 表示 没有 软件 预 取 指 时 的 带宽 为 11GB/s, 4 表示 同时 没有 优化 
内 存 关 联 的 带宽 为 4.8GB/s 


图 6-21 将 图 6-18 中 两 图 重生 的 Roofline 模 
型 。 算术 密 度 处 于 右边 灰色 梯形 区 
域 的 核心 程序 应 当 着 重 于 计算 优化 ， 
而 处 于 浅 灰 色 三 角形 区 域 的 核心 程 
序 应 当 着 重 于 存储 带宽 优化 。 处 于 
灰色 和 浅 灰 色 平 行 四 边 形 区 域 的 核 
心 程序 两 种 优化 都 应 当 考虑 。 例 如 
核心 程序 1 落 在 中 间 的 平行 四 边 形 
中 ,可 尝试 优化 ILP 和 SIMD 、 内 存 
| 关联 、 软 件 预 取 指 等 。 核 心 程序 2 
05 EE > 落 在 右边 的 梯形 区 域 ， 可 尝试 优化 


1/8 1/4 1/2 1 2 4 8 16 
ILP 和 SIMD 以 及 浮 点 操作 均衡 
算术 密度 : FLOPs/ 字 节 比 


可 获得 的 GFLOP/ 秒 








到 目前 为 止 , 我们 一 直 假 定 算术 密度 是 固定 的 , 但 是 实际 情况 并 非 如 此 。 首 先 ， 有 些 核心 
程序 的 算术 密度 会 随 问题 规模 增长 ， 如 稠密 矩阵 和 多 体 问题 ( 见 图 6-17) 。 事 实 上 ， 这 就 是 
程序 员 处 理 弱 比例 缩放 比 强 比例 缩放 更 成 功 的 原因 之 一 。 第 二 ， 存 储 器 层次 结构 的 效应 影 
响 存储 器 的 访问 次 数 ， 因 此 改善 缓存 性 能 的 优化 也 能 改善 算术 密度 。 一 个 例子 是 通过 循环 
展开 ， 并 将 使 用 相近 地 址 的 语句 分 组 到 一 起 来 改善 时 间 局 部 性 。 许 多 计算 机 提供 特殊 的 组 
存 指令 ， 故 可 以 先 将 数据 分 配 到 缓存 中 ， 而 不 用 先 从 存储 器 中 填充 ， 因 为 它 可 能 很 快 被 改 
写 。 这 些 优化 降低 了 存储 器 流量 ， 因 此 可 以 将 算术 密度 乘 以 一 个 系数 〈 如 1.5) 向 右 移动 。 
这 种 右 移 会 使 核心 程序 移 到 一 个 不 同 的 优化 区 域 。 

虽然 上 面 的 例子 展示 的 是 如 何 帮 助 程 序 员 提高 程序 的 性 能 ， 但 同时 架构 师 也 可 以 利用 这 个 
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模型 决定 硬件 的 哪些 部 分 应 该 优化 ， 以 提升 他 们 认为 重要 的 核心 程序 的 性 能 。 
下 一 节 使 用 Roofline 模型 分 析 一 个 多 核 微 处 理 器 和 一 个 GPU 的 性 能 差异 ， 以 及 这 些 差异 是 
否 反映 了 真实 程序 的 性 能 。 


加 精 解 天 花 板 是 分 层次 的 ， 最 低 的 天 花 板 是 最 容易 优化 的 。 显 然 ， 程 序 员 可 以 按 任意 
顺序 优化 ， 但 是 遵从 建议 的 顺序 可 以 避免 将 时 间 浪 费 在 因 其 他 约束 而 无 效 的 优化 上 。 
和 3C 模型 类 似 ， 只 要 模型 进行 了 抽象 ， 就 会 存在 一 些 理想 的 假设 。 例 如 ， 屋 顶 线 模 
型 是 假定 程序 在 所 有 处 理 器 间 负 载 均衡 的 。 

精 解 ”一 种 替换 Stream 基准 测试 程序 的 方法 是 使 用 原始 DRAM 带宽 作为 屋顶 线 。 尽 管 原 
始 带宽 构成 了 硬件 上 界 ， 但 是 存储 器 的 实际 性 能 往往 与 此 相差 甚 远 ， 因 此 可 用 性 不 高 。 也 
就 是 说 ， 没 有 程序 能 够 接近 该 上 界 。 使 用 Stream 的 不 利 因素 是 非常 仔细 的 编程 有 可 能 获 
得 高 于 Stream 的 结果 ， 因 此 存储 器 屋顶 线 不 像 计算 屋顶 线 那 样 坚实 。 我 们 坚持 使 用 Stream 
是 因为 很 少 有 程序 员 能 够 做 到 这 一 点 。 

加 精 解 尽管 屋顶 线 模型 是 针对 多 核 处 理 器 的 ， 但 是 它 也 可 以 用 于 单 处 理 器 。 


四 小 测验 
是 非 判 断 : 评测 并 行 计 算 的 常规 方法 的 主要 缺陷 是 确保 公平 性 的 同时 压制 了 创新 。 


6. 11 实例 : 评测 Intel Core i7 960 和 NVIDIA Tesla GPU 的 Roofline 模型 


一 组 Intel 的 研究 人 员 发 表 了 一 篇 论文 [ Lee 等 ,2010] ， 对 带 有 多 媒体 SIMD 扩展 的 四 核 
Intel Core i7 960 与 前 一 代 的 GPU ( NVIDIA Tesla GTX 280) 进行 了 对 比 。 图 6-22 列 出 了 两 个 系 
统 的 特点 。 这 两 个 系统 都 是 在 2009 年 秋天 购买 的 。Core i7 使 用 的 是 Intel 的 45 纳米 半导体 工 
世 ， 而 CPU 使 用 的 是 TSMC 的 65 纳米 工艺 。 虽 然 让 一 个 中 立 机 构 或 一 个 对 两 种 产品 都 感 兴 趣 
的 机 构 进 行 评估 可 能 更 公平 一 些 , 但 是 本 章 的 重点 不 是 为 了 说 明 哪 个 产品 运行 地 更 快 ， 快 的 比 
慢 的 快 多 少 等 问题 ， 而 是 尝试 着 理解 这 两 种 截然 不 同 的 结构 的 特性 。 
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Intel 4Snm 
700M 
存储 带宽 〈G 字 节 / 秒 ) 
| 双 精 度 SIMD 宽 度 | 
| 峰值 单 精度 向 量 FELOPS (GFLOP/ 秒 )〉 | 
| 峰值 单 精度 SIMD FLOPS (GFLOP/ 秒 ) | 515 或 1344 
| (SP1 加 或 乘 ) | | (515) | G3.0 
| 〈SP 1 融合 乘 加 的 指令 ) | | (1344) | (6. 
| 《Rare SP 双 通道 融合 乘 加 和 乘 ) | | 不 支持 | (9. 
| Peal 双 精度 SIMD FLOPS (GFLOP/ 秒 ) | 1.5 
6-22 Intel Core i7-960、NVIDIA GTX 280 以 及 GTX 480 的 指标 。 最 右面 的 两 列 展示 了 Tesla GTX 280 
和 Fermi GTX 480 与 Core i7 的 对 比 。 尽 管 例子 研究 的 是 Tesla 280 和 这 ， 但 是 我 们 也 给 出 了 Fermi 
480 与 Tesla 280 的 对 比 ， 因 为 本 章 中 介绍 到 了 这 点 。 注 意 这 里 的 存储 带宽 比 图 6-23 中 的 要 高 ， 
因为 这 里 的 是 DRAM 引 脚 的 带宽 ， 而 图 6-23 中 的 是 通过 测试 程序 得 到 的 处 理 器 中 的 带宽 (本 


表 来 自 于 Lee 等 .[2010] 中 的 表 2) 
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图 6-23 中 给 出 的 Core i7 960 和 GTX 280 的 Roofline 模型 展示 了 这 两 个 计算 机 的 区 别 。GTX 
280 不 仅 有 着 更 高 的 存储 带宽 和 双 精 度 浮 点 性 能 ， 而 且 它 的 双 精 度 拐 点 更 靠 左 。GTX 280 的 双 
精度 拐点 在 0.6， 而 Core i7 的 在 3.1。 上 面 曾 提 到 ， 若 Roofline 模型 的 拐点 更 靠 左 ， 则 更 容易 
达到 它 的 性 能 峰值 。 对 于 单 精度 性 能 ， 这 两 个 计算 的 观点 都 更 靠 右 一 些 ， 所 以 要 想 达 到 最 佳 的 
单 精度 计算 性 能 会 更 难 。 注 意 ,算术 运算 强度 是 基于 访问 主 存 的 字 节 数 的 ， 而 不 是 基于 访问 
cache 的 字 节 数 。 因 此 ， 就 像 之 前 提 到 的 ， 若 大 部 分 访 存 都 访问 cache， 则 缓存 可 以 改变 一 个 核 
心 程 序 在 计算 机 上 的 运算 强度 。 再 次 注意 ， 对 于 这 两 种 结构 ， 带 宽 是 单位 步 长 的 访问 。 我 们 即 
将 看 到 ， 真 实 的 聚集 - 分 散 地 址 在 GTX 280 和 Core i 上 会 更 慢 一 些 。 
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图 6-23 Roofline 模型 [ Williams ，Waterman，Patterson，2009 ] 。 上 面 一 行 给 出 了 双 精 度 浮 点 性 能 ， 下 面 一 
行 给 出 了 单 精度 浮 点 性 能 。( 双 精 度 浮 点 性 能 的 屋顶 线 同 时 也 在 下 面 一 行 的 图 中 画 出 了 , 已 给 出 
对 比 。) 左边 的 Core i7 960 的 最 高 双 精 度 浮 点 性 能 为 51.2GFLOP/s， 最 高 单 精度 浮 点 性 能 为 
102. 4CFLOP/s， 最 高 存储 带宽 为 16.4GB/s。NVIDIA GTX 280 的 最 高 双 精 度 浮 点 性 能 为 
78GFLOP/s， 最 高 单 精度 浮 点 性 能 为 624GFLOP/s， 最 高 存储 带宽 为 127GB/s。 图 中 左 侧 的 垂直 虚 
线 表示 0. 5FLOP/byte 的 算术 运算 强度 。Core 7 的 算术 运算 强度 受 存储 带宽 的 限制 不 能 超过 
8GFLOP/s (对 于 双 精 度 浮 点 和 单 精 度 浮 点 都 如 此 ) 。 图 中 右 侧 的 垂直 虚线 表示 4FLOP/byte 的 运 
算 强 度 。 在 Core i7 上 限制 在 51.2GFLOP/s 〈 双 精度 浮 点 性 能 ) 到 102.4GFLOP/s ( 单 精度 浮 点 性 
能 ) 之 间 , 在 GTX 280 上 限制 在 78GFLOP/s( 双 精度 浮 点 性 能 ) 到 512GFLOP/s( 双 精度 浮 点 性 
能 ) 之 间 。 为 了 在 Core i7 上 达到 最 高 的 运算 率 ， 需 要 使 用 全 部 4 个 核 和 SSE 指令 ， 并 且 乘 法 和 
加 法 的 数量 相等 。 对 于 GTX 280 ， 你 需要 在 所 有 多 线程 的 SIMD 处 理 器 上 使 用 混合 的 乘 加 指令 


4 1 
l/s 1/4 12 1 4 8 16 32 


从 客户 端 到 云 的 并 行 处 理 器 375 


通过 分 析 ， 研 究 者 们 最 近 提 出 了 4 个 测试 集 程序 的 计算 和 访 存 特性 ， 然 后 对 可 以 捕获 这 些 
特性 的 吞吐 计算 核心 程序 集 建 模 来 选择 测试 用 的 程序 。 图 6-24 给 出 了 性 能 结果 ， 数 字 越 大 表 
明 速 度 越 快 。Roofline 模型 帮助 解释 了 本 例子 中 的 相对 性 能 。 
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图 6-24 对 两 个 平台 测量 和 
- 两 个 平台 测量 得 到 的 原始 和 相 

对 性 能 数据 。 在 这 项 研究 
十 硕 研 究 中 ， 
一 人 SAXPY 只 被 用 来 对 存储 带宽 进 
行 测量 ， 所 以 右边 的 单位 为 
GBytes/s 而 不 是 GFLOP/s (基于 
1.6 
1.7 
5.7 


[ Lee 等 .2010] 中 的 表 3。) 
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Sol 人 

[SpMv jarrog 和 | 49 | 91 | 

[ok | 由 才 | 6 | 100 [152 | 

| Son | 再 万 人 元素/ 和 | 250 | 198 | 08 | 

[RC | 凡 黎 | 5 | 81 | 16| 

| Search | 百 万 次 查询 / 秒 | 50 | 90 | 18 | 

| ist | 百 万 像素 / 黎 | 1517 | 2583 | 17 | 

Bia | 有 像素 /[ 黎 | 5 | 475 | 57 | 
GTX 280 的 标准 性 能 在 慢 2.5 倍 (时 钟 频率 ) 到 快 7.5 倍 (每 个 芯片 上 的 核 数 ) 之 间 ， 而 

它 的 实际 性 能 为 慢 2. 0 倍 到 快 15. 2 信之 间 ，Intel 的 研究 者 们 决定 找到 其 中 的 原因 : 

e。 存储 带宽 ; CPU 有 4.4 倍 的 存储 带宽 ,这 解释 了 为 什么 LBM 和 SAXPY 运行 地 快 5.0 售 

和 5.3 倍 ; 它们 的 工作 集 为 几 百 兆 字 节 ， 因 此 数据 不 能 在 Core i7 的 cache 中 全 放下 。 

(所 以 由 于 集中 地 访 存 ， 它 们 刻意 不 使 用 第 5 章 中 的 缓存 阻塞 技术 ) 。 因 此 ，Roofline 模 

型 的 斜率 解释 了 它们 的 性 能 。SpMYV 同样 也 有 一 个 大 的 工作 集 ， 但 是 它 的 运行 只 快 了 

1.9 倍 ， 这 是 因为 GTX 280 的 双 精 度 浮 点 运算 只 比 Core i7 的 快 1.5 倍 。 

计算 带宽 : 剩 下 的 核心 程序 中 有 5 个 是 受 计算 制约 的 : SGEMM、Conv、FFT、MC 和 

Bilat。GTX 运行 这 5 个 程序 时 分 别 快 3.9、2.8、3.0、1.8 和 5.7 倍 。 这 其 中 的 前 三 个 

使 用 单 精度 浮 点 运算 ， 而且 GTX 280 的 单 精度 运算 要 快 3 ~6 倍 。MC 使 用 双 精 度 浮 点 

运算 ,这 解释 了 为 什么 它 只 快 1.8 倍 ， 因 为 双 精 度 浮 点 运算 性 能 只 比 Core 这 快 1.5 售 。 

Bilat 使 用 GTX 280 直接 支持 的 超越 函数 。Core i7 执行 Bilat 时 ， 三 分 之 二 的 时 间 用 来 计 

算 超越 函数 ， 所 以 GTX 280 要 快 5.7 倍 。 这 些 观察 帮助 指明 了 使 用 硬件 支持 负载 的 特 

定 操 作 ( 双 精度 浮 点 运算 、 超 越 函 数 ) 有 何 意义 。 

e 从 cache 获得 的 好 处 : 在 GTX 上 RC 运行 地 只 快 1.6 倍 ， 只 是 因为 在 GPU 上 Core i7 的 
缓存 阻塞 技术 可 以 防止 程序 变 得 受 存储 带宽 的 影响 (参见 5.4 节 和 5. 14 节 ) ， 而 在 
GTX 上 会 出 现 这 种 情况 。 缓 存 阻塞 技术 还 可 以 帮助 Search 程序 。 如 果 索 引 树 小 到 可 以 
在 cache 中 装 下 ， 则 Core i7 的 速度 会 快 2 倍 。 大 的 索引 树 会 使 程序 受 存储 带宽 的 限制 。 
总 体 来 说 ，GTX 在 运行 Search 程序 时 快 1.8 倍 。 缓 存 阻塞 技术 也 对 Sort 程序 有 利 。 尽 
管 大 部 分 程序 员 不 会 在 一 个 SIMD 处 理 器 上 运行 Sort, 但 是 它 可 以 用 称 作 split 的 1 位 
Sort 原 语 编写 。 但 是 ，split 算法 比 标量 Sort 程序 多 执行 更 多 的 指令 。 结 果 是 ，Core 这 
比 GTX 280 快 1.25 倍 。 注 意 ，cache 对 于 运行 在 Core 这 上 的 其 他 核心 程序 也 有 帮助 ， 
因为 缓存 阻塞 技术 允许 SGEMM 、FFT 和 SpMYV 变 为 受 计算 制约 的 程序 。 这 项 观察 再 次 
强调 了 第 5 章 介 绍 的 缓存 阻塞 技术 的 重要 性 。 

e 聚集 -分散 : 如 果 数 据 被 分 散 到 主 存 的 各 个 地 方 ， 多 媒体 SIMD 扩展 就 不 会 有 太 大 的 
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用 途 ; 只 有 访问 的 数据 是 16 字 节 对 齐 时 才 会 获得 最 佳 的 性 能 。 因 此 GJK 程序 在 Core i7 
上 从 SIMD 中 获得 的 好 处 很 少 。 就 像 前 面 提 到 过 的 ，GPU 提供 向 量 结构 支持 而 大 部 分 
SIMD 扩展 不 支持 的 聚集 - 分 散 技术 。 内 存 控制 器 甚至 会 将 访问 同一 个 DRAM 页 的 请 求 
打包 ( 见 5.2 节 )。 这 两 点 使 得 GTX 280 在 运行 GJK 时 比 Core 这 快 15.2 倍 ， 这 比 图 6- 
22 中 的 任何 物理 参数 都 要 大 。 这 项 观察 再 一 次 证 实 了 聚集 - 分 散 技术 对 于 缺乏 SIMD 
扩展 的 向 量 和 GPU 结构 的 重要 性 。 
同步 : 同步 的 性 能 受 原子 更 新 的 制约 ， 这 占据 了 Core 这 28% 的 总 执行 时 间 ， 尽 管 Core 
i7 有 硬件 读 取 并 自 增 (fetch-and-increment) 指令 。 因 此 ，Hist 程序 在 GTX 280 上 只 比 
Core 如 快 1.7 倍 。Solv 程序 使 用 少量 指令 和 一 个 同步 操作 来 解决 一 批 独立 的 限制 条 件 。 
Core 这 可 以 从 原子 指令 以 及 一 致 性 存储 模型 之 中 获 益 ， 一 致 性 存储 模型 可 以 保证 结果 
是 正确 的 ， 尽管 不 是 所 有 之 前 的 访 存 指令 都 已 经 执行 完毕 。 由 于 没有 一 致 性 存储 模型 ， 
当 GTX 280 从 系统 处 理 器 那里 得 到 一 批 操作 时 ， 它 的 性 能 只 是 Core 7 的 0.5 倍 。 这 项 
观察 指出 了 同步 的 性 能 对 于 一 些 数 据 并 行 问题 是 多 么 重要 。 

由 Intel 研究 者 选择 的 这 些 核心 程序 揭示 出 的 Tesla GTX 280 的 不 足 ， 在 Tesla 的 后 续 版 本 中 
都 得 到 了 解决 : Fermi 拥有 更 快 的 双 精 度 浮 点 性 能 、 更 快 的 原子 操作 以 及 cache。 另 一 个 有 趣 的 
是 ， 支 持 向 量 结构 的 聚集 -分散 机 制 早 于 SIMD 指令 几 十 年 就 出 现 了 ， 并 且 对 SIMD 扩展 的 有 
效 执行 非常 重要 ， 这 在 这 次 比较 之 前 就 已 经 预言 到 了 。Intel 的 研究 者 们 注意 到 这 14 个 核心 程 
序 中 的 6 个 可 以 在 对 Core i7 提供 足够 的 聚集 - 分 散 支 持 的 前 提 下 更 有 效 地 发 气 SIMD。 这 项 研 
究 当然 也 证 实 了 缓存 阻塞 技术 的 重要 性 。 

现在 我 们 看 到 了 评价 不 同 多 处 理 器 得 出 的 很 多 结果 ， 接 下 来 让 我 们 看 看 我 们 需要 对 
DGEMM 程序 的 C 代码 进行 多 大 的 修改 才 可 以 发 挥 多 处 理 器 的 性 能 优势 。 


6. 12 ”运行 更 快 : 多 处 理 器 和 和 矩阵 乘法 


这 一 市 是 我 们 根据 Intel Core i7 (Sandy Bridge) 已 经 改变 结构 的 DGEMM 程序 以 获得 性 能 
提升 的 最 后 一 步 ， 也 是 最 大 的 一 步 。 每 个 Core i7 有 8 个 核 ， 我们 用 的 计算 机 有 2 个 Core i7。 所 
以 我 们 有 16 个 核 来 运行 DGEMM 程序 。 

图 6-25 给 出 了 使 用 这 些 核 的 OpenMP 版 本 的 DGEMM 程序 。 注 意 , 第 30 行 是 相对 于 
图 5-48 唯 一 增加 的 一 行 代码 ， 以 使 程序 可 以 运行 在 多 处 理 器 上 : 使 用 了 一 个 OpenMP 的 pragma 
语句 告诉 编译 器 对 最 外 层 for 循环 使 用 多 线程 。 它 告诉 计算 机 将 最 外 层 for 循环 的 任务 分 配给 所 
有 线程 去 执行 。 

图 6-26 画 出 了 一 个 经 典 的 多 处 理 器 加 速 比 图 ， 它 展示 了 当 线 程 数量 增加 时 ， 相 对 于 
单线 程 的 性 能 提升 。 这 个 图 让 人 们 很 容易 地 看 到 强 比 例 缩放 相对 于 弱 比 例 缩放 的 挑战 。 
当 所 有 数据 都 可 以 放 入 一 级 数据 cache 中 时 ， 例 如 32 x32 和 矩阵， 增加 线程 的 数量 实际 上 
会 损坏 性 能 。 在 这 种 情况 下 ，16 个 线程 的 DGEMM 程序 的 性 能 只 是 单线 程 的 一 半 。 相 反 ， 
最 大 的 那 两 个 矩阵 在 使 用 16 个 线程 时 ， 人 性 能 提升 了 14 倍 ， 所 以 得 到 了 图 6-26 最 上 面 的 
两 条 线 。 

图 6-27 给 出 了 当 我 们 将 线程 的 数量 刚 从 1 个 增加 到 16 个 时 的 绝对 性 能 增长 。 对 于 960 x 
960 的 矩阵 ，DGEMM 程序 以 174GLOPS 的 速率 执行 。 图 3-21 给 出 的 未 经 任何 优化 的 C 版 本 的 
DGEMM 程序 是 以 0. 8GFOPS 的 速率 执行 ， 所 以 通过 第 3 ~6 章 根据 硬件 对 代码 进行 的 优化 ， 性 
能 提升 了 200 倍 ! 

接 下 来 我 们 给 出 了 多 进程 的 廖 误 与 陷阱 。 计 算 机 系统 结构 的 墓地 中 充满 了 忽略 这 些 廖 误 与 
陷阱 的 并 行 项 目 。 
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1 #include <x86intrin.h> 

2 #define UNROLL (4) 

3 #define BLOCKSIZE 32 

4 void do_block (int n, int si, int sj, int sk, 
double *A, double *B, double *C) 


{ 
for ( int i = si; i < si+BLOCKSIZE; i+=UNROLL*4 ) 
for ( int j = sj; j < sj+BLOCKSIZE; j++ ) { 
__m256d c[4]; 
for ( int x = 0; x < UNROLL; x++ ) 
c[x] = _mm256_load_pd(C+i+x*4+j*n); 
te* CL ee CEPJIEIT */ 
for( int k = sk; k < sk+BLOCKSIZE; k++ ) 
{ 
m256d b = _mm256_broadcast_sd(B+k+j*n); 
/二 b= BEKILIY 去 7 
for (int x = 0; x < UNROLL; x++) 
c[x] = _mm256_add_pd(c[x], /* c[x]J]+=A[i]J[kJ*b */ 
_mMm256_mul_pd(_mm256_1load_pd(Atn*k+x*4+i ), b)); 
} 


for ( int x = 0; x < UNROLL; x++ ) 
_mMMm256_store_pd(C+i+x*4+j*n, c[x]); 
1/* CTiJEj} = G[X] */ 


28 void dgemm (int n, double* A, double* B, double* C) 
29 { 
30 jpragma omp parallel for 
for ( int sj = 0; sj < n; sj += BLOCKSIZE ) 
for ( int si = 0; si < n; si += BLOCKSIZE ) 
for ( int sk = 0; sk < n; sk += BLOCKSIZE ) 
do_block(n, si, sj, sk, A, B, C); 





图 6-25 图 5-48 中 的 DGEMM 程序 的 OpenMP 版 。 第 30 行 是 唯一 一 条 OpenMP 语句 ， 它 使 最 外 层 的 for 
循环 并 行 执行 。 这 一 行 代码 是 与 图 5-48 中 的 唯一 区 别 
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8 
线程 
图 6-26 与 单线 程 相 比 ， 当 线程 数 增多 时 的 性 能 提升 。 最 客观 的 方法 是 拿 多 线程 的 性 能 与 最 优 的 单线 程 的 性 
能 相 比 ， 这 也 是 我 们 的 做 法 。 这 个 图 是 与 图 5-48 中 没有 使 用 OpenMP 的 pragma 语 句 的 代码 相 比 较 的 
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4 
线程 
图 6-27 4 个 不 同 大 小 的 矩阵 的 DGEMM 程序 的 性 能 。 对 于 960 x 960 和 矩阵， 在 使 用 16 个 线程 时 与 

图 3-21 中 的 未 经 任何 优化 的 代码 相 比 ， 性 能 提升 了 212 倍 


图 精 解 这 些 结论 是 在 Turbo 模式 关闭 的 情况 下 得 到 的 。 在 这 个 系统 中 ， 我 们 使 用 的 是 一 个 
双 芯 片 系统 ， 所 以 意料 之 中 ， 我 们 无 论 使 用 1 个 线程 (只 使 用 一 个 芯片 上 的 一 个 核 ) 还 
是 2 个 线程 (每 个 芯片 上 使 用 一 个 核 ) 都 能 得 到 完整 的 Turbo 加 速 (3.3/2.6=1.27)。 当 
我 们 增加 线程 数 时 (使 用 的 核 数 也 增多 ) ， 从 Turbo 模式 的 获 益 将 减少 ， 因 为 会 有 更 少 的 
功 耗 来 使 用 这 些 核 。 对 于 4 个 线程 ， 平均 Turbo 加 速 比 对 于 4 个 线程 、8 个 线程 和 16 个 线 
程 分 别 为 1.23、1.13 和 1.11。 

加 精 解 虽然 Sandy Bridge 支持 每 个 核 两 个 硬件 线程 ， 但 当 使 用 32 个 线程 时 我 们 无 法 得 到 更 
多 的 性 能 提升 。 这 是 因为 一 个 AVX 硬件 被 同一 个 核 上 的 两 个 线程 所 共享 ， 所 以 当 为 一 个 
核 分 配 两 个 线程 时 实际 上 会 对 性 能 有 所 损害 。 


6. 13 ” 廖 误 与 陷阱 


十 多 年 有 来， 一直 有 人 在 争论 单 处理 器 的 组 织 形 式 已 经 到 达 了 性 能 极限 ， 并 县 性 能 
的 真正 改进 只 能 通过 将 多 台 计 算 机 互 连 从 而 以 这 种 方式 支持 协同 计算 …… 事实 证 明 音 
处 理 器 的 性 能 一 直 在 不 断 增 长 …… 

一 一 gere Amdahl, “ Validity of the single processor approach to achieving large 
scale computing capabilities” , Spring Joint Computer Conference, 1967 


对 并 行 处 理 的 大 量 研 究 揭示 了 诸多 廖 误 和 陷阱 。 我 们 在 这 里 讨论 其 中 4 个 。 

廖 误 : Amdah] 定律 不 适用 于 并 行 计算 机 。 

1987 年 ， 一 个 研究 组 织 的 负责 人 宣称 Amdahl 定律 已 经 被 多 处 理 器 所 打破 。 为 了 试图 理解 
这 些 媒体 报道 的 依据 ， 我 们 首先 看 一 下 对 Amdahl 定律 的 相关 引用 [1967 ，p. 483 ] : 

此 时 可 以 得 出 的 一 个 相当 直观 的 结论 是 : 花费 在 获得 高 并 行 处 理 速度 上 的 努力 都 是 无 用 
的 ， 除 非 顺序 处 理 速度 提高 的 数量 级 也 与 其 十 分 接近 。 

这 句 话 依然 是 正确 的 ; 程序 中 被 忽视 的 部 分 必然 限制 性 能 。 该 定律 的 一 种 解释 可 得 到 下 面 
一 条 引 理 : 每 个 程序 中 都 有 一 部 分 是 顺序 的 ， 因 此 必然 有 一 个 经 济 的 处 理 器 数量 上 界 一 一 比如 
说 是 100。 通 过 给 出 使 用 1000 个 处 理 器 也 可 以 达到 线性 增长 ,证明 该 引 理 是 错误 的 ; 因而 得 
出 了 Amdahl 定律 被 打破 的 结论 。 
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这 些 研 究 人 员 的 方法 是 使 用 弱 比例 缩放 : 他 们 不 是 在 相同 的 数据 集 上 将 速度 提高 1 000 倍 ， 而 是 
在 可 比较 时 间 内 将 计算 量 提高 1 000 倍 。 对 于 他 们 的 算法 ， 程 序 中 顺序 执行 的 比例 是 常数 ， 与 问题 的 
输入 规模 无 关 ， 而 其 余部 分 则 是 完全 并 行 的 一 一 因此 ， 使 用 1 000 个 处 理 器 时 依然 为 线性 增长 。 

Amdahl 定律 显然 也 适用 于 并 行 处 理 器 。 这 项 研究 确实 指出 了 更 快 的 计算 机 主要 用 途 之 一 
是 完成 更 大 规模 的 问题 。 只 要 确保 用 户 真 的 关心 这 些 问题 并 把 这 些 作为 购买 更 贵 的 计算 机 的 理 
由 ， 而 不 是 关心 为 找到 可 以 使 很 多 处 理 器 保持 忙碌 的 问题 。 

谬误 : 峰值 性 能 可 代表 实际 性 能 。 

超级 计算 机 业界 在 市 场 中 曾经 使 用 该 度量 方法 ， 并 且 该 廖 误 在 并 行 机 中 更 加 严重 。 市 场 营 
销 人 员 不 仅 在 单 处 理 器 节点 使 用 这 种 几乎 不 可 能 达到 的 峰值 性 能 指标 ， 而 且 还 将 其 乘 以 处 理 器 
的 总 个 数 ， 从 而 假定 并 行 机 可 以 达到 完美 的 加 速度 ! Amdahl 定律 指出 达到 两 种 峰值 是 多 么 困 
难 ; 将 两 者 相 乘 就 错 上 加 错 了 。 屋 项 线 模型 有 助 于 达到 合乎 比例 的 峰值 性 能 。 

陷阱 : 在 利用 和 优化 多 处 理 器 体系 结构 时 不 开发 软件 。 

在 很 长 的 时 间 里 并 行 软件 一 直 落 后 于 并 行 硬件 ， 可 能 是 因为 软件 问题 困难 得 多 。 我 们 给 出 
一 个 例子 说 明 这 一 问题 ,但 是 可 供 选择 的 例子 还 有 很 多 ! 

在 将 为 单 处 理 器 设计 的 软件 移植 到 多 处 理 器 环境 时 经 常会 遇 到 这 样 一 个 问题 。 例 如 ，SGI 
操作 系统 最 初 假 定 页 分 配 不 频繁 ， 从 而 通过 一 个 锁 来 保护 页 表 。 在 单 处 理 器 中 ， 这 不 是 一 个 性 
能 问题 。 在 多 处 理 器 中 ， 对 某 些 程序 会 成 为 一 个 主要 的 性 能 瓶颈 。 考 虑 一 个 程序 在 启动 时 需要 
初始 化 大 量 页 的 情况 ， 正 如 UNIX 为 静态 分 配 页 所 做 的 操作 那样 。 假 设 该 程序 被 并 行 化 以 便 多 
核 进程 分 配 页 。 由 于 页 的 分 配 需 要 使 用 页 表 ， 而 页 表 在 每 次 使 用 时 必须 锁定 ， 即 使 操作 系统 内 
核 支 持 多 线程 ， 如 果 这 些 进程 试图 同时 请 求 分 配 页 (这 恰好 就 是 我 们 在 初始 化 时 所 预期 的 情 
况 ) 也 会 因此 串 行 执行 。 

页 表 的 串 行 操作 影响 了 初始 化 时 的 并 行 ， 并 对 整个 并 行 性 能 有 着 很 大 的 影响 。 该 性 能 瓶颈 
其 至 在 任务 级 并 行 中 也 存在 。 例 如 ， 假 设 我 们 将 并 行 处 理 程序 分 为 若干 独立 的 作业 并 分 别 在 一 
个 处 理 器 上 运行 一 个 作业 ， 这 样 在 不 同 作业 之 间 就 没有 任何 共享 。( 这 恰好 是 一 个 用 户 的 做 法 ， 
因为 他 合乎 情理 地 相信 性 能 问题 是 由 于 应 用 程序 中 非 预期 的 共享 或 冲突 所 造成 的 。) 不 幸 的 是 ， 
锁 机 制 依然 将 所 有 工作 串 行 化 一 一 因此 说 明 即 使 互相 独立 的 工作 性 能 也 会 很 低 。 

该 陷阱 说 明 当 软 件 在 多 处 理 器 上 运行 时 ， 这 种 微妙 但 对 性 能 有 极 大 影响 的 错误 会 显现 出 
来 。 和 其 他 许多 主要 软件 一 样 ， 操 作 系 统 的 算法 和 数据 结构 在 多 处 理 嚣 上 需要 重新 考虑 。 在 页 
表 的 更 小 区 域 加 锁 可 以 有 效 地 避免 这 个 问题 。 

廖 误 : 可 以 在 不 提升 存储 器 带宽 的 前 提 下 得 到 好 的 向 量 计算 性 能 。 

从 Roofline 模型 中 可 以 看 到 ， 存 储 带 宽 对 各 种 体系 结构 都 很 重要 。DAXPY 每 个 浮 点 操作 需要 
1.5 个 存储 访问 ， 对 于 很 多 科学 计算 代码 这 是 一 个 很 标准 的 比例 。 即 使 浮 点 操作 不 需要 花费 时 间 ， 
一 个 Cray-1 计算 机 也 不 会 增加 DAXPY 向 量 序列 的 性 能 ， 因 为 它 的 存储 受到 限制 。 当 编译 器 使 用 
阻塞 机 制 改变 计算 ， 以 使 数据 可 以 保存 在 向 量 寄存 器 中 时 ，Cray-1 运行 Linpack 的 性 能 有 了 跳 轻 
式 提升 。 这 个 方法 降低 了 每 个 浮 点 运算 的 访 存 次 数 并 使 性 能 提升 了 将 近 两 倍 。 因 此 ，Cray-1 的 存 
储 带宽 对 于 之 前 有 更 多 带宽 需求 的 循环 来 说 足够 了 ， 这 正 是 Roofline 模型 所 预言 的 。 


6. 14 本 章 小 结 


我 们 正在 旦 未 来 产品 的 开发 专注 于 多 模 设 计 。 我 们 和 扯 信和 这 对 工业 界 是 一 个 重要 力 
折 点 。 0 这 不 是 一 场 竟 争 。 这 是 计算 的 翻天 逢 地 的 变化 A 
一 一 Pau[ Otellint，Inte[ 号 栽 ，Inte[ 开 发 者 论坛 ，2004 


自从 计算 开始 之 日 ， 人 们 就 梦想 着 通过 简单 的 集成 若干 处 理 器 构建 计算 机 。 然 而 ， 构 建 并 
充分 有 效 利 用 并 行 处 理 器 的 进程 是 缓慢 的 。 其 原因 一 方面 是 受 软件 难点 的 限制 ， 另 一 方面 是 为 
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了 提高 可 用 性 和 效率 ， 多 处 理 器 的 体系 结构 在 不 断 改 进 。 本 章 中 我 们 讨论 了 许多 软件 方面 的 挑 
战 ， 包 括 编写 由 于 Amdahl 定律 可 获得 高 加 速 比 程序 的 难点 。 不 同 并 行 体系 结构 之 间 往 往 存在 
巨大 差异 ， 所 取得 的 性 能 提升 也 非常 有 限 ， 而 且 过 去 许多 并 行 体系 结构 的 生命 周期 非常 短暂 ， 
这 些 因素 使 得 软件 更 加 困难 。 网 站 上 的 6. 15 节 讨 论 了 这 些 多 处 理 器 的 历史 。 要 对 本 章 所 讲述 
的 主题 有 更 深入 的 理解 ， 请 参阅 《计算 机 体系 结构 : 量化 研究 方法 》 第 5 版 第 4 章 中 的 更 多 关 
于 CPU 以 及 CPU 与 CPU 之 间 进 行 对 比 的 内 容 ， 还 有 第 6 章 中 关于 WSC 的 内 容 。 

正如 第 1 章 所 述 ， 信 息 技术 业 的 未 来 与 并 行 计算 是 紧密 联系 在 一 起 的 。 像 过 去 一 样 ， 尽 管 
有 很 多 努力 会 失败 ， 但 是 依然 有 很 多 理由 让 我 们 充满 希望 : 


显然 ,软件 即 服务 (SaaS) 的 重要 性 正在 增长 中 ， 并 且 集 群 已 经 被 证 实 为 提供 此 类 服 
务 的 一 种 非常 成 功 的 方法 。 通 过 提供 高 层次 的 元 余 ， 包 括 地 理 分 布 的 数据 中 心 ， 此 类 
服务 可 以 为 全 世界 的 客户 提供 24 x7 x365 的 可 用 性 。 

我 们 相信 仓储 级 计算 机 正在 改变 服务 器 设计 的 目标 和 原则 ， 就 像 移动 客户 端的 需求 正 
在 改变 微 处 理 器 设计 的 目标 和 原则 一 样 。 这 两 者 同样 也 都 在 革新 软件 行业 。 移 动 客 户 
端 便 件 和 WSC 硬件 都 受 一 美元 所 能 带 来 多 少 性 能 和 每 焦耳 所 能 带 来 多 少 性 能 的 驱动 ， 
并 行 是 提供 这 些 目标 的 关键 。 

SIMD 和 向 量 操作 很 适合 在 后 PC 时 代 占 据 重 要 地 位 的 多 媒体 应 用 。 它 们 比 经 典 的 并 行 
MIMD 编程 更 简单 并 且 在 功 耗 方面 效率 更 高 。 为 了 认识 到 SIMD 与 MIMD 的 重要 性 ， 
图 6-28 给 出 了 随 着 时 间 的 增长 MIMD 中 的 核 数 ， 以 及 x86 计算 机 中 SIMD 模式 下 每 时 钟 
周期 的 32 位 和 64 位 操作 个 数 。 对 于 x86 计算 机 ， 我 们 期 待 每 两 年 在 芯片 上 增加 两 个 
核 并 且 每 四 年 SIMD 宽度 增加 一 倍 。 在 这 些 假设 的 前 提 下 ， 在 下 一 个 十 年 后 ，SIMD 的 
并 行 加 速 会 是 MIMD 并 行 的 两 倍 。 给 出 了 SIMD 对 于 多 媒体 的 效率 和 它 在 后 PC 时 代 越 
来 越 大 的 重要 性 ， 这 个 推论 可 能 是 正确 的 。 因 此 ， 至 少 应 理解 SIMD 并 行 和 MIMD 并 行 
同等 重要 ， 尽 管 后 者 已 经 得 到 了 更 多 的 关注 。 
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图 6-28 MIMD 和 SIMD 的 潜在 并 行 加 速 比 ， 以 及 x86 计算 机 的 MIMD 和 SIMD 随 着 时 间 的 变化 。 该 图 


假设 每 两 年 单 芯片 上 MIMD 的 核 数 增加 两 个 ， 并 且 每 四 年 SIMD 操作 的 数目 增加 一 倍 
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并 行 处 理 在 科学 计算 和 工程 计算 等 领域 中 非常 普遍 。 此 类 应 用 领域 对 计算 能 力 几 乎 充 
满 无 限 的 渴望 。 而 且 有 很 多 应 用 具有 天 然 的 并 行 性 。 集 群 再 一 次 地 占据 了 此 类 应 用 领 
域 。 例 如 ， 根据 2012 Top 500 报告 ,集群 占据 了 500 个 最 快 的 Linpack 报告 的 80% 。 
为 了 获得 更 高 性 能 ， 所 有 的 桌面 和 服务 器 微 处 理 器 制造 商 正在 构建 多 处 理 器 ， 顺 序 应 
用 程序 不 会 像 过 去 一 样 再 有 获取 更 高 性 能 的 捷径 。 正 如 我 们 之 前 所 说 的 ， 串 行程 序 现 
在 就 是 慢 的 程序 。 因 此 ， 需 要 更 高 性 能 的 程序 员 必 须 将 自己 的 代码 并 行 化 ， 或 者 编写 
全 新 的 并 行 处 理 程序 。 

在 过 去 ， 微 处 理 器 和 多 处 理 器 在 成 功 上 的 定义 是 不 同 的 。 当 缩放 单 处 理 器 性 能 时 ， 如 
果 单 线程 性 能 随 硅 面积 的 开 方 增长 ， 微 处 理 器 设计 者 会 感觉 很 满意 。 也 就 是 说 ， 他 们 
满足 于 性 能 随 资源 数量 的 亚 线性 增长 。 多 处 理 器 的 成 功 在 过 去 通常 定义 为 与 处 理 器 数 
量 相关 的 线性 加 速 比 函 数 ， 并 假定 个 处 理 器 的 购买 成 本 或 管理 成 本 是 单一 处 理 器 的 
倍 。 目 前 并 行 正 在 以 片上 多 核 的 形式 实现 ,我们 可 以 使 用 已 经 获得 成 功 的 传统 微 处 理 
器 标准 来 获得 亚 线性 的 性 能 提升 。 

运行 时 编译 技术 和 自动 运行 的 成 功 使 得 软件 更 容易 适应 每 芯片 上 核 数量 的 增长 ， 提 供 
受 静态 编译 器 限制 所 不 能 提供 的 灵活 性 。 

与 过 去 不 同 的 是 ， 开 放 源 代码 运动 已 经 成 为 软件 业 的 一 个 关键 部 分 。 这 项 运动 可 以 改 
善 工程 解决 方案 ,促进 开发 者 之 间 的 知识 共享 。 它 也 鼓励 创新 ， 在 改变 旧 软 件 时 欢迎 
新 的 语言 和 软件 产品 。 这 种 开放 式 的 文化 必 将 有 益 于 目前 日 新 月 异 的 时 期 。 


为 使 读者 接受 这 个 改变 ,我们 通过 快速 浏览 第 3 *6 章 的 章节 来 展示 如 何 通过 Intel Core 这 
(Sandy Bridge) 处 理 器 发 掘 矩 阵 乘法 的 潜在 并 行 : 


第 3 章 中 的 数据 级 并 行 通过 使 用 256 位 的 AVX 指令 并 行 执 行 4 个 64 位 浮 点 运算 使 性 能 
提升 了 3. 85 倍 ， 这 展示 了 SIMD 的 价值 。 

第 4 章 中 的 指令 级 并 行 4 次 展开 循环 给 乱 序 执行 的 硬件 提供 了 更 多 的 指令 去 调度 ， 这 
又 使 性 能 提升 了 2.3 倍 。 

第 5 章 中 的 cache 优化 使 用 cache 阻塞 来 减少 cache 缺失 ， 这 对 不 能 放 进 Ll cache 的 和 矩 
阵 性 能 提升 了 2.0 ~2.5 倍 。 

本 章 中 的 线程 级 并 行 通过 使 用 多 核 芯片 上 的 所 有 16 个 核 使 无 法 放 入 单一 Ll cache 的 矩 
阵 的 性 能 提升 了 4 ~ 14 倍 ， 这 展示 了 MIMD 的 价值 。 我 们 是 通过 加 入 了 一 行 OpenMP 
pragma 语句 实现 的 。 


使 用 本 书 中 的 方法 并 且 根 据 该 计算 机 对 软件 进行 改变 ， 在 DGEMM 程序 上 加 了 24 行 代码 。 
对 于 32 x32、160 x160、480 x480 和 960 x 960 的 矩阵 ， 通 过 这 几 行 代码 和 本 书 的 方法 得 到 的 
总 的 性 能 加 速 比 为 8、39、129 和 2121 

软 硬 件 接口 上 的 并 行 变 革 也 许 是 过 去 60 年 来 所 面临 的 最 大 挑战 。 你 也 可 以 把 它 当 做 最 大 
的 机 遇 ， 就 像 我 们 快速 浏览 各 章 章 节 时 所 展示 的 。 这 个 变革 在 全 界 内 外 提供 了 大 量 研究 和 商 
业 前 景 ， 并 且 主 导 多 核 的 公司 并 不 一 定 与 主导 单 处 理 器 的 公司 相同 。 在 理解 了 硬件 发 展 的 潮流 
以 及 学 会 了 如 何 根 据 硬 件 来 改变 软件 之 后 ， 也 许 你 就 会 抓 住 其 中 的 机 会 ， 成 为 创新 者 中 的 一 
员 。 我 们 期 待 从 你 的 发 明 创 造 中 获 益 ! 


名 6. 15 ”历史 观点 和 拓展 阅读 
本 节 在 网 上 主要 给 出 了 近 50 年 来 多 处 理 器 的 发 展 历史 。 


561 


562 


563 





3682 





参考 文献 
G. Regnier, S. Makineni, R. Ilikkal, R. Iyer, D. Minturn, R. Huggahalli, D. Newell, 


B. 


6. 16 


6.1 


6.1.1 


6.1.2 
6.1.3 


6.1.4 
6.2 


6.2.1 
6.2.2 
6.2.3 
6.2.4 


6.3 


L. Cline, and A. Foong. TCP onloading for data center servers. IEEE Computer, 
37(11):48-58, 2004. 

FE Cooper, A. Silberstein, E. Tam, R. Ramakrishnan, R. Sears. Benchmarking 
cloud serving systems with YCSB, In: Proceedings of the 1st ACM Symposium 
on Cloud computing, June 10-11，2010，Indianapolis，Indiana， USA， 
doi:10.1145/1807128.1807152. 


练习 题 


首先 写 一 个 每 周 你 通常 需要 完成 的 日 常 活动 的 列表 。 例 如 ， 你 可 能 会 起 床 、 淋 浴 、 穿 衣服 、 吃 早 
饭 、 弄 干 关 发、 刷牙 。 确 保 列表 中 至 少 包含 10 项 活动 。 

[5] <6.2 > 考虑 哪些 活动 已 经 利用 了 某 种 形式 的 并 行 性 〈 例 如， 是 同时 刷 多 颗 牙 还 是 一 次 只 刷 
一 颗 牙 ， 是 一 次 只 带 一 本 书 到 学 校 ， 还 是 将 所 有 书 装 到 背包 里 一 次 “并 行 ” 携 带 ) 。 对 每 个 活动 
都 分 析 是 否 已 经 并 行 工 作 ， 如 果 没 有 ， 分 析 其 原因 。 

[5] <6.2 > 接 下 来 考虑 哪些 活动 可 以 并 发 执行 (例如 ， 吃 早餐 和 听 新 闻 )。 对 每 个 活动 都 分 析 哪 
些 活动 可 以 与 其 配对 并 发 执行 。 

[5] <6.2 > 对 练习 题 6. 1.2， 可 以 通过 改变 现 有 系统 (例如 ， 淋 浴 设 备 、 衣 服 、 电 视 机 、 汽 车 
等 ) 中 的 什么 来 让 我 们 并 行 执行 更 多 的 任务 ? 

[5] <6. 2 > 如 果 你 能 尽 可 能 多 地 并 行 执行 任务 ， 估 计 完 成 这 些 任务 可 以 缩短 的 时 间 是 多 少 ? 
假设 需要 你 制作 3 块 蓝莓 蛋糕 。 蛋 糕 的 配料 如 下 

1 杯 黄油 ， 软 化 后 再 用 

1 杯 糖 

4 个 大 鸡蛋 

1 茶匙 香草 精 

0.5 茶匙 盐 

0. 25 茶匙 肉 豆 薄 

1.5 杯 面粉 

1 杯 蓝莓 

蛋糕 的 制作 流程 如 下 : 

第 1 步 : 烤箱 预 热 至 160 (325"F)。 在 烤 盘 上 抹 黄 油 和 一 层 薄 薄 的 面粉 。 

第 2 步 : 在 一 只 大 碗 中 使 用 搅拌 器 以 中 速 将 奶油 和 糖 混合 在 一 起 ， 直 到 松 发 。 再 加 鸡蛋 、 香 草 
精 、 盐 和 肉 豆 荡 ， 搅 拌 到 完全 混合 。 将 搅拌 器 降 到 低速 ,一 次 加 入 0.5 杯 面 粉 ， 搅拌 到 完全 
混合 。 

第 3 步 : 最 后 慢 慢 加 入 蓝莓 ， 将 蛋糕 均匀 地 放 在 烤 盘 中 ， 烘 烤 约 60 分 钟 。 

[5] <6.2 > 你 的 任务 是 尽 可 能 高 效率 地 完成 3 块 蛋糕 。 假 定 只 有 一 个 能 容纳 一 块 蛋 糕 的 烤箱 、 一 
个 大 碗 、 一 个 烤 盘 、 一 个 搅拌 器 ， 请 做 出 合理 的 调度 以 尽 可 能 快 地 完成 任务 ， 并 分 析 瓶 颈 所 在 。 
[5] <6. 2 > 假设 你 现在 有 3 个 碗 、3 个 蛋糕 盘子 和 3 个 搅拌 器 。 你 拥有 这 些 增加 的 资源 后 ， 现 在 
的 工序 加 快 了 多 少 ? 

[5] <6.2 > 假设 你 现在 有 两 个 朋友 ， 可 帮 你 豪 饪 ， 并且 你 有 一 个 可 容纳 3 个 蛋糕 的 大 烤箱 。 这 些 
将 对 练习 题 6. 2. 1 中 的 计划 有 何 改 变 ? 

[5] <6.2 > 将 制作 蛋糕 与 并 行 计算 机 中 的 循环 渤 代 进行 类 比 。 分 析 制 作 蛋 糕 的 循环 中 存在 的 数据 
级 并 行 和 任务 级 并 行 。 

许多 计算 机 应 用 程序 需要 在 一 组 数据 中 进行 搜索 和 对 数据 进行 排序 。 为 了 减少 这 些 任务 的 执行 时 
间 ， 已 经 实现 了 几 种 高 效 的 搜索 和 排序 算法 。 在 本 练习 中 ,我 们 将 考虑 如 何 将 这 些 任务 的 并 行 最 
大 化 。 





6.3.1 


6.3.2 


6.4 


6.4.1 
6.4.2 


6.4.3 


6.4.4 


6.5 


[10] <6.2 > 请 看 下 面 的 二 进 制 搜索 算法 〈 一 种 经 典 的 分 而 治之 算法 ) ， 该 算法 可 以 在 已 经 排序 
的 NN 元 素数 组 4 中 搜索 值 X， 并 返回 匹配 项 的 索引 号 : 


BinarySearch(A[0..N-1]，X) { 
]ow = 0 
high = N -1 
while (low <= high) { 
mid = (low + high) / 2 
if (A[mid] >X) 
high = mid 一 1 
else if (A[mid] <X) 
low = mid + 1 
else 
return mid // found 
} 
return -1 // not found 
} 


假设 BinarySearch 运行 在 具有 了 Y 个 核 的 多 核 处 理 器 上 ， 且 了 Y 远 远 小 于 N。 请 问 预期 的 加 速 比 是 多 
少 ? 请 画图 表示 。 
[5] <6.2 > 接 下 来 ,假设 Y 与 N 相同 ， 这 会 对 你 前 面 的 结论 有 何 影 响 ? 如 果 要 求 你 获得 尽 可 能 
高 的 加 速 比 〈 强 比例 缩放 ) ， 请 问 该 如 何 修改 代码 ? 
请 看 下 面 的 C 代码 片段 : 
for (j=2;j<1000;j++) 
D[j] = D[Lj-1]+D[j-2]; 
与 之 对 应 的 MIPS 代码 如 下 所 示 : 


addiu $52,$zero,7992 
addiu $sl1,$zero,16 


loop: 1.d $f0, —16($s1) 
外 :二 $f2, —8($s1) 
add.d $f4, $f0O, $f2 
S .村 $f4, 0($s1) 
addiu $sl, $sl1, 8 
bne $sl, $s2, loop 


每 种 指令 的 延迟 如 下 ( 以 周期 为 单位 ): 
TREE 


[10] <6. 2 > 执行 一 次 循环 所 有 的 指令 需要 多 少 周期 ? 

[10] <6.2 > 在 循环 中 ， 如 果 后 面 重复 执行 的 指令 会 依赖 于 前 面 指令 产生 的 结果 ， 我 们 说 循环 内 
重复 存在 循环 进位 相关 性 (loop-carried dependence) 。 请 分 析 上 面 代码 中 的 循环 进位 相关 性 ， 识 
别 其 中 相关 的 程序 变量 和 汇编 级 寄存 器 。 可 忽略 循环 变量 j。 

[10] <6.2> 第 4 章 中 描述 了 循环 展开 。 对 此 循环 进行 展开 ， 并 考虑 将 此 代码 运行 在 一 个 2 节点 
的 基于 消息 传递 的 分 布 式 存储 器 系统 中 。 假 定 我 们 采用 6. 7 节 描 述 的 消息 传递 机 制 ， 操 作 send 
(x，y) 可 向 节点 x 发 送 值 y， 操 作 receive( ) 可 等 待 正在 发 送 的 数 。 再 假定 send 操作 的 发 射 需要 
1 个 周期 (也 就 是 说 ， 同 一 节点 的 后 续 指 令 可 在 下 个 周期 执行 ) ， 而 接收 节点 需要 10 个 周期 接 
收 。 接 收 指令 会 阻塞 接收 节点 上 指令 的 执行 ， 一 直 等 到 接收 节点 完成 消息 接收 为 止 。 假 设 循环 会 
执行 4 次， 请 计算 在 该 基于 消息 传递 的 系统 中 完成 循环 所 需 的 周期 数 。 

[10] <6.2 > 互联 网 络 的 延迟 是 决定 消息 传递 系统 效率 的 重要 因素 之 一 。 请 问 为 了 让 练习 
题 6. 4.3 中 的 分 布 式 系统 能 获得 任意 加 速 比 ， 互 联网 络 需要 提供 多 快 的 速度 ? 

考虑 下 面 的 归并 排序 算法 〈 另 一 种 经 典 的 分 而 治之 算法 ) 。 归 并 排序 由 John Von Neumann 于 1945 
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年 首先 提出 。 其 基本 思想 是 将 含有 m 个 元 素 的 未 排序 序列 x 分 为 两 个 子 序列 ， 其 中 每 个 序列 长 度 
都 大 约 是 原来 的 一 半 。 然 后 对 每 个 子 序列 重复 类 似 的 动作 ， 直 到 每 个 子 序列 的 长 度 均 为 1。 再 从 长 
度 为 1 的 子 序列 开始 ， 将 两 个 子 序列 “归并 ”为 一 个 排序 的 序列 。 


Mergesort(m) 
var 77st left, right, result 
if length(m) < 1 
return m 
else 
var middle = length(m) / 2 
for each x in m up to middle 
add x to left 
for each x in m after middle 
add x to right 
left = Mergesort(1left) 
right = Mergesort(right) 
result = Merge(left, right) 
return result 


下 面 的 代码 实现 归并 步骤 : 


Merge(left,right) 
var list result 
while length(left) >0 and length(right) > 0 
if first(left) < first(right) 
append first(left) to result 
left = rest(left) 
else 
append first(right) to result 
right = rest(right) 
if length(left) >0 
append rest(left) to result 
if length(right) >0 
append rest(right) to result 
return result 


6.5.1 [10] <6.2> 假 设 MergeSort 运行 在 具有 Y 个 核 的 多 核 处 理 器 上 ， 且 Y 远 远 小 于 m (长 度 )。 请 问 


预期 的 加 速 比 是 多 少 ? 请 画图 表示 。 


6.5.2 [10] <6.2> 接 下 来 , 假设 Y 与 m (长 度 ) 相同， 这 会 对 你 前 面 的 结论 有 何 影响 ”如 果 要 求 你 获 


得 尽 可 能 高 的 加 速 比 〈 例 如 ， 强 比例 缩放 ) ， 请 问 该 如 何 修改 代码 ? 

6.6 矩阵 乘 在 大 量 应 用 中 都 扮演 重要 角色 。 两 个 矩阵 可 以 相 乘 的 条 件 是 第 一 个 矩阵 的 列 数 和 第 二 个 矩 
阵 的 行 数 相同 。 
假设 我 们 有 一 个 m xn 的 矩阵 4， 还 有 一 个 nxp 的 矩阵 8 与 之 相 乘 。 乘 法 结果 为 一 个 m xp 的 算 
阵 4B( 或 4 B)。 如 果 令 C=AB，C;, 代 表 在 矩阵 (i, )) 位 置 处 的 值 , 则 1<i<m 且 1<j<p。 现 
在 我 们 考虑 是 否 可 以 将 C 的 计算 并 行 化 。 假 设 矩 阵 在 存储 器 中 的 存放 顺序 为 : ol ，@21，a31， 


CQ4,1， 


6.6.1 [10] <6.5 > 假设 我 们 分 别 在 单 核 /四 核 共享 存储 器 的 系统 计算 C， 请 问 四 核 相 对 于 单 核 的 预期 加 


速 比 是 多 少 ? 可 忽略 存储 器 相关 的 问题 。 


6.6.2 [10] <6.5 > 如果 对 C 的 更 新 会 导致 cache 缺失 (例如 更 新 一 行 中 连续 的 元 素 时 可 能 引起 伪 共 


享 ) ， 重 新 计算 练习 题 6. 6. 1 中 的 问题 。 


6.6.3 [10] <6.5 > 有 什么 办 法 消除 可 能 出 现 的 伪 共享 问题 ? 


6.7 下 面 的 两 个 程序 同时 运行 在 一 个 包含 4 个 处 理 器 的 SMP (对 称 多 核 处 理 器 ) 中 。 假 设 在 开始 运行 
之 前 ，x 和 y 的 初 值 均 为 0。 
核 1: x=2; 
核 2: y=2; 


从 容 户 端 到 云 的 并 行 处 理 器 385 





6.7.2 
6.8 


6.8.1 
6.8.2 


6.8.3 


6.8.4 


6.9 


6.9.1 


6.9.2 


6.9.3 





核 3: w=x+y+1; 

核 4: z=x+y; 

[10] <6.5 >w、x、y、z 所 有 可 能 的 结果 分 别 是 什么 ?对 每 种 可 能 的 情况 ， 通过 分 析 指 令 的 交 
错 情况 ， 解 释 其 产生 的 原因 。 

[5] <6.5 > 采用 什么 措施 能 让 执行 变 成 更 有 确定 性 ， 以 便 只 产生 一 种 结果 。 

哲学 家 就 餐 问题 是 一 个 经 典 的 同步 和 并 发 问题 。 该 问题 假设 就 座 于 一 个 圆桌 周围 的 哲学 家 们 可 以 
做 两 件 事 之 一 : 吃饭 或 思考 。 当 他 们 吃饭 时 ， 他 们 不 能 思考 ， 反 之 亦 然 。 在 圆桌 中 心 有 一 碗 通 心 
粉 。 每 两 个 哲学 家 之 间 有 一 只 叉子 ， 这 样 每 个 哲学 家 左面 有 一 把 叉子 ， 右 面 也 有 一 把 叉子 。 按 照 
吃 通 心 粉 的 方式 ， 哲 学 家 需要 两 把 叉子 才能 吃 通 心 粉 ， 而 且 只 4 能 使 用 紧 挨 着 他 左右 的 两 把 叉子。 
哲学 家 不 能 和 其 他 人 说 话 。 

[10] <6.7 > 请 描述 没有 任何 哲学 家 可 以 吃 通 心 粉 的 情景 。 什 么 样 的 事件 序列 会 导致 该 问题 发 生 ? 
[10] <6.7 > 如 何 通过 引入 优先 级 的 概念 来 解决 这 一 问题 ?这样 可 以 对 所 有 哲学 家 公平 对 待 吗 ? 
请 解释 原因 。 

现在 假定 我 们 增加 一 个 服务 员 负 责 为 哲学 家 们 分 配 叉子 。 只 有 在 服务 员 人 允许 之 下 他 们 才 可 以 拿 起 

叉子 。 服 务 员 也 知道 所 有 叉子 的 状态 。 而 且 我 们 要 求 所 有 哲学 家 总 是 先 请 求 拿 起 左边 的 又 子 再 请 

求 拿 起 右边 的 又 子 ， 这 样 可 以 避免 死 锁 。 

[10] <6.7 > 对 服务 员 请 求 的 实现 ， 可 以 将 请 求 放 人 一 个 队列 ， 也 可 以 让 请 求 周期 性 地 重 试 。 采 
用 队列 方式 ， 请 求 可 以 按 收 到 的 顺序 依次 处 理 。 使 用 队列 的 问题 是 即使 请 求 排 在 队列 的 最 前 面 ， 
我 们 也 不 能 保证 总 是 为 其 提供 服务 ， 因 为 可 能 缺乏 所 需 的 资源 。 试 想 使 用 1 个 队列 为 5 个 哲学 家 
服务 的 情景 ， 即 使 有 的 哲学 家 有 两 把 叉子 都 可 用 但 仍然 不 能 为 其 服务 (因为 他 的 请 求 排 在 队列 的 

后 部 ) 。 

[10] <6.7 > 如 果 我 们 让 请 求 周期 性 地 重 试 直到 资源 变 为 可 用 ， 这 样 是 否 就 解决 了 练习 题 6. 8.3 
中 的 问题 ? 请 给 出 原因 。 

请 看 下 面 的 3 种 CPU 结构 : 

CPU SS: 一 个 双核 超标 量 微 处 理 器 ， 支 持 在 两 个 功能 单元 (FU) 上 的 乱 序 发 射 。 每 个 核 只 能 运 
行 单一 线程 。 

CPU MT: 一 个 细 粒 度 的 多 线程 处 理 器 ， 支 持 来 自 两 个 线程 中 指令 的 并 发 执行 〈 也 就 是 说 ， 有 两 
个 功能 单元 ) ， 尽 管 每 个 周期 只 能 从 一 个 线程 发 射 一 条 指令 。 

CPU SMT: SMT 处 理 器 支持 来 自 两 个 线程 的 指令 并 发 执行 (也 就 是 说 ， 有 两 个 功能 单元 ) ， 并 且 
发 射 的 指令 可 来 自任 一 线程 或 者 两 个 线程 。 

假定 我 们 在 这 些 CPU 上 运行 线程 X 和 线程 Y， 具 体操 作 如 下 : 










Al : 需 三 个 周期 执行 B1: 需 两 个 周期 执行 
A2: 无 相关 性 B2: 与 Bl1 使 用 的 一 个 功能 单元 冲突 
A3: 与 Al 使 用 的 一 个 功能 单元 冲突 B3: 需要 B2 的 结果 


A4: 需要 A3 的 结果 : 无 相关 性 并 且 需 要 两 个 周期 执行 





除非 特别 标记 或 者 遇 到 相关 阻塞 ， 假 定 所 有 的 指令 都 是 单 周期 执行 。 

[10] <6.4 > 如 果 使 用 一 个 SS CPU， 执行 这 两 个 线程 需要 多 少 个 周期 ?相关 阻塞 浪费 了 多 少 发 
射 模 ? 

[10] <6.4 > 如 果 使 用 两 个 SS CPU， 执 行 这 两 个 线程 需要 多 少 个 周期 ? 相关 阻塞 浪费 了 多 少 发 
射 槽 ? 

[10] <6.4 > 如 果 使 用 一 个 MT CPU， 执 行 这 两 个 线程 需要 多 少 个 周期 ? 相关 阻塞 浪费 了 多 少 发 
射 槽 ? 
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6.10 ”虚拟 化 软件 正在 用 于 降低 管理 高 性 能 服务 器 的 成 本 。 包 括 VMWare 、Microsoft 和 IBM 公司 在 内 


6. 10. 1 


6. 10. 2 


6.11 


6.11.1 


6.11.2 


6. 12 


6. 12.1 


6. 12.2 
6. 13 


6. 13.1 
6. 14 


6.14.1 


6.14.2 


的 很 多 公司 正在 开发 一 系列 的 虚拟 化 产品 。 第 5 章 中 介绍 的 管理 程序 层 (hypervisor layer) 位 于 
硬件 和 操作 系统 之 间 ， 使 得 多 个 操作 系统 可 以 共享 同一 物理 硬件 。 管 理 程序 层 负 责 分 配 CPU 和 
存储 器 资源 ， 同 时 处 理 原 本 由 操作 系统 完成 的 服务 (如 10)。 
虚拟 化 为 宿主 操作 系统 和 应 用 软件 提供 了 底层 硬件 的 一 个 抽象 层 ， 使 得 若干 操作 系统 可 并 行 运行 在 
共享 的 CPU 和 存储 器 上 。 我 们 需要 重新 考虑 未 来 如 何 设计 多 核 和 多 处 理 器 系统 来 对 此 进行 支持 。 
[30] <6.4> 选 择 市 场 上 的 两 种 管理 程序 ， 比 较 它 们 虚拟 化 和 管理 底层 硬件 (CPU 和 存储 器 ) 
的 方式 。 
[15] <6.4> 为 了 更 好 地 满足 未 来 多 核 CPU 平台 的 资源 需求 ， 可 采取 哪些 措施 ? 例如 ， 多 线程 
技术 是 否 可 以 减轻 计算 资源 间 的 竞争 ? 
我 们 将 讨论 如 何 高 效 地 执行 下 面 的 代码 。 假 设 我 们 有 两 种 不 同 的 机 器 ， 一 种 是 MIMD ， 另 一 种 
是 SIMD。 
for (i=0; i < 2000; i++) 

for (j=0; j<3000; j++) 

X_array[ij[j] = Y_array[j][i] + 200; 


[10] <6.3 > 对 一 个 包含 4 个 CPU 的 MIMD 机 器 ， 请 给 出 每 个 CPU 上 执行 的 MIPS 指令 序列 。 此 
MIMD 机 器 的 加 速 比 是 多 少 ? 

[20] <6.3 > 对 一 个 宽度 为 8 的 SIMD 机 器 〈 也 就 是 说 ， 包 含 8 个 并 行 的 SIMD 功能 单元 ) ， 使 用 
你 自己 的 对 MIPS 的 SIMD 扩展 编写 一 个 执行 该 循环 的 汇编 程序 ， 并 比较 SIMD 和 MIMD 上 执行 
指令 的 数量 。 

MISD 机 器 的 一 个 例子 是 脉动 阵列 〈systolic array) 。 它 是 一 个 由 数据 处 理 单元 构成 的 流水 线 网 络 
或 波 阵 面 。 这 些 单元 都 不 需要 程序 计数 器 ， 因 为 执行 是 通过 数据 到 达 触 发 的 。 时 钟 脉动 阵列 以 
与 每 个 处 理 器 相 “ 锁 步 ”的 方式 进行 计算 ,而 这 些 处 理 右 承担 了 交替 的 计算 和 通信 。 

[10] <6.3 > 分 析 脉 动 阵 列 的 各 种 实现 机 制 ( 可 以 在 互联 网 或 出 版 物 中 查找 相关 资料 ) ， 然 后 使 
用 MISD 模型 对 练习 题 6. 11 中 的 循环 进行 编程 ， 并 对 遇 到 的 问题 进行 讨论 。 

[10] <6.3 > 应 用 数据 级 并 行 中 的 各 种 术语 ， 分 析 MISD 和 SIMD 之 间 的 相似 点 和 不 同 点 。 

假定 我 们 要 执行 本 章 讲述 NVIDIA 8800 GTX CPU 时 提 到 的 DAXPY 循环 。 在 这 一 问题 中 ,我 们 
假定 所 有 算术 操作 是 单 精度 浮 点 数 运算 ( 因此 我 们 将 其 重新 命名 为 SAXPY) 。 假 定 指令 的 执行 
周期 数 如 下 所 示 。 


5 | 2 3 4 


[20] <6.6 > 请 描述 一 下 在 一 个 8 核 处 理 器 中 如 何 构建 warp 来 完成 SAXPY 循环 ? 

从 http:ANHwww. nvidia. com/object/cuda_get. html 下 载 CUDA Toolkit 和 SDK。 注 意 使 用 代码 的 
emurelease (Emulation Mode) 版 本 (此 版 本 可 在 没有 NVIDIA 硬件 的 情况 下 运行 )。 编 译 SDK 
中 提供 的 示例 程序 ， 并 确认 它们 运行 在 仿真 器 上 。 

[90] <6.6 > 以 SDK 的 示例 程序 为 起 点 ， 编 写 一 个 完成 如 下 向 量 操作 的 CUDA 程序 : 

1) a -0 (向 量 减法 ) 

2) a .0 (向量 点 积 ) 

向 量 a=[al, 6, …, a,] 和 b=[b，b,，…,， 5b, | 的 点 积 定义 如 下 : 





a*b= 2 aibi = ab +ab, + +a,b, 
fa 
运行 编写 的 程序 并 验证 结果 是 否 正确 。 


[90] <6.6 > 如 果 你 有 可 用 的 CPU 硬件 ， 请 完成 对 程序 的 性 能 分 析 ， 并 查看 在 向 量 大 小 不 同 的 
情况 下 CPU 和 一 个 CPU 版 本 的 计算 时 间 ， 并 解释 其 中 的 原因 。 
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6.15 


6.15.1 
6.16 


6.16.1 


6.16.2 


6.17 


6.17.1 
6.17.2 


6.18 


6. 18.1 


6. 18. 2 


6. 18.3 


6. 18.4 
6. 19 


AMD 最 近 宣 布 将 把 GPU 与 x86 核 集成 到 一 个 封装 中 ， 尽 管 两 者 的 时 钟 不 同 。 这 是 我 们 能 在 不 远 
的 将 来 看 到 的 一 种 异 构 多 处 理 器 系统 商业 化 产品 。 设 计 的 关键 之 一 是 如 何 支 持 CPU 和 GPU 之 间 
的 高 速 数据 通信 。 当 前 ， 必 须 在 CPU 和 GPU 之 间 进 行 通信 ， 这 在 AMD 的 Fusion 体系 结构 中 发 
生 了 变化 。 目 前 的 计划 是 采用 多 个 ( 至 少 16 个 ) PCI express 通道 来 实现 高 速 通信 。Intel 也 使 用 
Larrabee 芯片 进行 了 类 似 的 研究 ， 通 信 计 划 采 用 QuickPath 互联 技术 。 

[25] <6.6 > 比较 这 两 种 互联 技术 的 带宽 和 延迟 。 

参照 图 6-14b 中 给 出 的 3 阶 n 维 立方 体 互 连 拓 扑 结构 ， 其 将 8 个 节点 进行 了 互 连 。zm 维 立方 体 互 
连 拓扑 的 一 个 优势 是 在 部 分 互 连 损坏 的 情况 下 依然 可 以 保持 连接 性 。 

[10] <6. 8 >n 维 立方 体 中 最 多 有 多 少 互 连 损坏 时 还 能 保证 任何 节点 依然 能 够 连接 ? 请 写 出 计算 


公开 o 
[10] <6.8 > 比较 n 维 立方 体 和 全 互联 网 络 的 可 靠 性 。 画 图 比较 两 种 拓扑 分 别 在 多 少 连接 损坏 增 
加 时 会 导致 连接 失效 。 


基准 测试 程序 用 于 在 指定 的 计算 平台 上 运行 有 代表 性 的 工作 负荷 ， 从 而 比较 不 同系 统 之 间 的 性 
能 。 在 本 练习 题 中 ， 我 们 将 比较 两 种 benchmark: Whetstone CPU benchmark 和 PARSEC Bench- 
mark suite。 从 PARSEC 中 选择 一 个 程序 。 所 有 程序 都 可 从 网 上 免费 下 载 。 考 虑 将 Whetstone 的 多 
份 备份 或 PARSEC Benchmark 运行 在 6. 11 节 中 描述 的 各 个 系统 上 。 

[60] <6. 10 > 两 种 工作 负载 运行 在 这 些 多 核 系 统 上 的 本 质 区 别 是 什么 ? 

[60] <6. 10 > 使 用 Roofline 模型 的 相关 术语 ,分析 在 运行 了 这 些 benchmark 时 ， 运 行情 况 与 工作 
负荷 中 共享 和 同步 的 数量 相关 性 有 多 大 ? 

在 计算 稀 朴 矩阵 时 ， 存 储 器 的 延迟 至 关 重 要 。 由 于 稀 朴 矩阵 缺乏 矩阵 操作 中 常见 的 空间 局 部 性 ， 
所 以 需要 研究 新 的 矩阵 表示 方法 。 

最 早 的 稀 朴 矩阵 表示 方法 之 一 是 Yale 稀疏 矩阵 格式 。 它 使 用 3 个 一 维 数 组 存储 维 数 m x n 的 拢 
阵 M。 令 RR 代表 中 的 非 零 项 数目 。 我 们 构造 一 个 长 度 为 R 的 数组 4 存储 M 中 的 所 有 非 零 项 
(按照 从 左 到 右 、 从 上 到 下 的 顺序 ) 。 我 们 再 构造 一 个 长 度 为 m+1 的 数组 MH。14(i) 包含 第 i 行 
中 第 一 个 非 零 项 在 4 中 的 索引 号 。 原 矩阵 中 的 第 i 行 的 元 素 可 从 A(14(i)) 到 4(I4(i+1) -1) 
中 得 到 。 第 三 个 数组 J4 包含 4 中 每 个 元 素 的 列 号， 因此 它 的 长 度 也 为 R。 

[15] <6. 10 > 分 析 下 面 的 稀 朴 和 矩阵 X， 并 编写 C 程序 将 其 存储 为 Yale 稀疏 和 矩阵 格式 。 


Row 1 [1，2，0，0，0，0] 
Row 2 [0, 0, 1, 1, 0, 0] 
Row 3 [0, 0, 0, 0, 9, 0] 
Row 4 [2, 0, 0, 0,，0,2] 
Row 5 [0, 0, 3, 3, 0, 7] 
Row 6 [1, 3, 0, 0, 0,1] 


[10] <6. 10 > 在 存储 空间 方面 ,假定 和 矩阵 X 中 的 每 个 元 素 都 是 单 精度 浮 点 格式 ， 如 果 用 Yale 稀 
玻 矩阵 格式 存储 上 面 的 矩阵 ， 请 计算 共 需 多 少 存储 空间 。 

[15] <6. 10 > 执行 下 面 给 出 的 矩阵 忒 和 憩 阵 了 的 和 矩阵 乘 。 

[2, 4, 1, 99, 7, 2] 


将 该 计算 放 人 循环 中 ， 并 对 执行 过 程 进行 计时 。 确 保 增加 循环 执行 的 次 数 ， 以 在 你 的 时 间 测 量 
中 获得 较 好 的 分 辩 率 。 比 较 矩 阵 的 原始 表示 的 运行 时 间 和 Yale 稀 朴 矩阵 格式 的 运行 时 间 。 

[15] <6. 10 > 你 是 否 能 够 找到 更 加 有 效 的 稀 朴 矩阵 表示 方法 (考虑 空间 和 计算 开销 )? 

在 未 来 的 系统 中 ， 我 们 期 待 能 够 看 到 由 异 构 CPU 构成 的 异 构 计 算 平 台 。 在 嵌 人 式 处 理 相关 市 
场 ， 一 些 同 时 包含 浮 点 DSP 和 微 控制 CPU 的 多 芯片 模块 包 的 系统 已 经 开始 呈现 。 

假定 你 有 三 类 CPU: 

CPU A 一 一 每 周期 可 执行 多 条 指令 的 中 速 多 核 CPU 〈 具 有 浮 点 单元 ) 。 

CPU B 一 一 每 周期 可 执行 单条 指令 的 快速 单 核 整 型 CPU (例如 ， 无 浮 点 单元 ) 。 

CPU C 一 一 每 周期 可 执行 同样 指令 的 多 个 副本 的 慢 速 向 量 CPU (具备 浮 点 能 力 )。 
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假定 我 们 的 处 理 絮 在 下 面 的 频率 运行 


6.19.1 
6.19.2 
6.20 


6.20.1 
6. 20. 2 


6. 20. 3 





1CHz 3CHz 250MHz 


在 每 个 时 钟 周期 ，CPU A 可 以 执行 2 条 指令 ，CPU B 可 以 执行 1 条 指令 ，CPU C 可 以 执行 8 条 指 
令 (尽管 是 相同 指令 ) 。 假 定 所 有 的 操作 在 单 周期 延迟 中 完成 执行 ， 且 没有 任何 冒险 。 

三 个 CPU 均 可 执行 整 型 算术 ， 尽 管 CPU B 不 能 直接 执行 浮 点 算术 。CPU A 和 B 具有 与 MIPS 处 
理 器 相似 的 指令 集 。CPU C 仅 能 执行 浮 点 加 、 减 和 存储 器 存 、 取 操作 。 假 定 所 有 CPU 均 可 访问 
共享 存储 器 ， 并 且 同 步 的 开销 为 零 。 

我 们 的 任务 是 比较 两 个 矩阵 ，X 和 Y， 它 们 每 个 都 包含 1 024 x 1 024 个 浮 点 元 素 。 输 出 结果 应 是 
指示 矩阵 式 中 何 处 的 值 比 矩 阵 了 中 的 值 大 或 相等 的 一 系列 数 。 

[10] <6. 11 > 请 描述 如 何 划分 该 问题 到 3 个 不 同 的 CPU 上 ， 以 获得 最 佳 性 能 。 

[10] <6. 11 > 你 会 向 向 量 CPU C 中 增加 哪 类 指令 ， 以 获得 更 好 的 性 能 ? 

假定 一 个 四 核 计 算 机 系统 可 以 处 理 每 秒 钟 具有 稳定 状态 率 的 数据 库 事务 。 同 时 假定 ， 每 个 事务 
平均 花费 固定 的 时 间 来 处 理 。 下 表 给 出 了 几 对 事务 延迟 和 处 理 速率 。 























1ms 5 000/s 
2ms 一 5 000/s 
1ms 10 000/s 
2ms 10 000/s 


对 于 表 中 的 每 一 对 数据 ， 回 答 如 下 问题 : 

[10] <6.11 > 在 任意 给 定 的 瞬间 ， 平均 有 多 少 请 求 被 处 理 ? 

[10] <6.11 > 如 果 移 到 8 核 的 系统 中 ， 理 想 情况 下 ， 系 统 的 吞吐 量 将 发 生 什么 变化 (例如 ,， 计 
算 机 每 秒 处 理 多 少 请 求 )? 

[10] <6.11 > 讨论 为 什么 通过 简单 地 增加 核 的 数量 ,我 们 很 少 获得 这 种 加 速 ? 


著 ) 小 测验 答案 


6.1 
6.2 
6.3 


6.4 
6.5 


错误 。 任 务 级 并 行 可 以 帮助 串 行 应 用 ， 可 以 使 串 行 应 用 在 并 行 硬件 上 运行 ， 尽 管 会 有 很 多 挑战 。 
错误 。 弱 缩放 可 以 补偿 程序 的 串 行 部 分 ， 强 缩放 的 缩放 性 会 被 串 行 部 分 所 限制 。 

正确 。 但 是 它们 缺少 可 以 提升 向 量 体 系 结构 性 能 的 特性 ， 如 聚集 - 分 散 和 向 量 长 度 寄存 器 。( 就 
像 这 节 中 的 精 解 中 提 到 的 ，AVX2 SIMD 扩展 通过 聚集 操作 提供 了 变 址 加 载 但 不 通过 分 散 操作 提 
供 变 址 存储 。Haswell x86 微 处 理 器 是 第 一 个 支持 AVX2 的 处 理 器 。) 

1. 正确 。2. 正确 。 

错误 。 由 于 共享 地 址 是 物理 地 址 ， 且 多 任务 中 的 每 个 任务 都 在 它们 自己 的 虚拟 地 址 空间 中 ， 因 
而 可 在 共享 存储 器 多 处 理 器 上 良好 地 运行 。 

错误 。 图 形 DRAM 因 其 更 高 的 带宽 而 被 赞扬 。 

1. 错误 。 发 送 和 接收 消息 是 一 个 隐 式 的 同步 ， 同 样 也 是 一 种 共享 数据 的 方式 。2. 正确 。 

正确 。 

正确 。 我 们 或 许 需要 在 硬件 的 所 有 层次 和 软件 栈 上 进行 革新 ， 以 使 并 行 计算 成 功 。 
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汇编 夯 、 链接 器 和 SPIM 仿真 器 





James R. Larus 
微软 研究 院 


对 恶意 中 伤 的 息 惧 ， 不 能 成 为 组 止 言论 和 集会 自由 的 借口 。 
Louis Brandeis, Whitney v. Califormia, 1927 





A.1 引言 


将 指令 编码 为 二 进 制 数字 对 计算 机 来 说 自然 且 有 效 。 然 而 人 类 理解 和 处 理 这 些 数字 有 很 大 
的 困难 。 人 们 读 和 写 符 号 (文字 ) 比 读 和 写 一 长 串 的 数字 容易 多 了 。 第 2 章 说 明了 我 们 不 需要 
在 数字 和 文字 之 间 做 出 选择 ， 因 为 计算 机 指令 可 以 具备 很 多 种 表达 方式 。 人 类 可 以 读 而 且 写 这 
些 符号 ， 并 且 计算 机 可 以 执行 等 价 的 二 进 制 数字 。 本 附录 描述 了 人 类 可 读 的 程序 被 处 理 的 过 
程 : 把 一 种 程序 形式 转换 成 另外 一 种 计算 机 可 以 执行 的 方式 ， 提 供 了 一 些 编写 汇编 程序 的 暗 
示 ， 并 且 解 释 如 何在 SPIM 上 运行 这 些 程序 ，SPIM 是 一 个 执行 MIPS 程序 的 仿真 器 。SPIM 的 
UNIX、Windows 以 及 Mac 0S X 版 本 在 CD 中 可 以 得 到 。 

汇编 语言 是 计算 机 二 进 制 编码 一 一 机 器 语言 (machine language) 的 符号 表示 。 汇 编 语言 比 
机 器 语言 更 具备 可 读 性 ， 因 为 它 使 用 符号 而 不 是 二 进 制 数字 。 这 些 汇编 语言 中 的 符号 名 字 通 常 
以 二 进 制 模式 出 现 ， 例 如 ， 操 作 码 和 寄存 器 指示 符 ， 所 以 可 以 阅读 并 记 住 它们 。 另 外 ， 汇 编 语 
言 允 许 编程 者 使 用 labels 来 识别 和 指定 保存 指令 或 数据 的 内 存 字 。 


”机 器 语言 : 在 计算 机 系统 内 部 通信 的 二 进 制 表示 。 


一 个 被 称 为 汇编 器 (assembler) 的 工具 来 将 汇编 语言 转换 成 二 进 制 指令 。 汇 编 器 提供 了 比 
机 器 0 和 机 器 1 更 友好 的 表达 ， 使 得 写 程序 和 读 程 序 都 简化 了 。 操 作 和 地 址 的 符号 名 称 是 这 种 
表达 方式 的 一 个 方面 。 另 一 个 方面 是 编程 设备 增加 了 程序 的 清晰 度 。 例 如 ，A. 2 节 讨 论 的 宏 
(macros) 允许 程序 员 通 过 定义 新 操作 来 扩展 汇编 语言 。 


”汇编 器 : 将 符号 版 本 的 指令 翻译 成 二 进 制版 本 的 一 段 程序 。 
2 宏 : 一 种 模式 匹配 和 替换 机 制 ， 提供 了 简单 的 机 制 来 命名 经 常 使 用 的 指令 序列 。 


汇编 器 读 人 一 个 汇编 语言 的 源 文件 ， 产 生 一 个 包含 机 器 指令 以 及 帮助 将 几 个 目标 文件 整合 
成 一 段 程序 的 标签 信息 的 目标 文件 。 图 A-1-1 说 明了 如 何 构 建 一 个 程序 。 很 多 程序 由 多 个 文件 
组 成 一 一 也 被 称 为 模块 一 一 这 些 文件 被 分 开 单独 编写 、 单 独 编译 、 单 独 汇 编 。 一 个 程序 可 能 使 
用 程序 库 中 提供 的 预先 写 好 的 例 程 。 一 个 模块 通常 包含 到 子 例 程 的 引用 以 及 在 别 的 模块 和 库 中 
定义 的 数据 。 模 块 中 的 代码 直到 对 其 他 目标 文件 或 者 库 的 标签 的 未 确定 的 引用 ( unresolved ref- 
erence) 全 部 解决 时 才能 执行 。 另 一 个 工具 被 称 为 链接 器 (linker) ， 将 目标 代码 和 库 文件 整合 
成 一 个 可 执行 文件 ， 这 个 文件 是 计算 机 可 以 执行 的 。 


未 确定 的 引用 : 一 个 需要 从 外 部 源 代码 获取 更 多 信息 才能 完成 的 引用 。 


A-1 
! 
A-3 





A-4 


390 附录 A 





人 链接 器 : 也 称 为 链接 编辑 器 。 是 一 个 将 独立 的 汇编 机 器 语言 程序 组 装 起 来 ， 处 理 其 中 未 定 
义 的 标签 形成 可 执行 文件 的 一 个 系统 程序 。 


目标 文件 








码 文 件 ， 这 个 目标 代码 文件 又 和 其 他 的 文件 和 库 链 接 组 成 可 执行 文件 


为 了 理解 汇编 语言 的 优势 ， 考 虑 下 面 一 系列 图 ， 这 些 图 包含 了 一 个 短程 序 ， 这 个 程序 计算 
而 且 打 印 出 0 ~ 100 的 整数 的 平方 和 。 图 A-1-2 展示 一 个 MIPS 计算 机 可 以 执行 的 机 器 语言 。 付 
出 很 多 努力 ， 你 可 以 使 用 第 2 章 指令 表 中 的 编码 和 指令 格式 来 将 指令 转换 成 图 A-1-3 的 类 似 的 
符号 化 程序 。 这 个 程序 的 形式 是 相当 容易 读 的 ， 因 为 操作 和 操作 数 使 用 符号 ， 而 不 是 使 用 二 进 
制 模式 写 的 。 然 而 ， 汇 编 语 言 仍然 很 难 遵循 ， 因 为 内 存 位置 通 过 地 址 来 指定 而 不 是 通过 符号 化 
标签 来 指定 。 


00100111101111011111111111100000 
10101111101111110000000000010100 
10101111101001000000000000100000 
10101111101001010000000000100100 
10101111101000000000000000011000 
10101111101000000000000000011100 
10001111101011100000000000011100 
10001111101110000000000000011000 
00000001110011100000000000011001 
00100101110010000000000000000001 
00101001000000010000000001100101 
10101111101010000000000000011100 
00000000000000000111100000010010 
00000011000011111100100000100001 
00010100001000001111111111110111 
10101111101110010000000000011000 
00111100000001000001000000000000 
10001111101001010000000000011000 
00001100000100000000000011101100 
00100100100001000000010000110000 
10001111101111110000000000010100 
00100111101111010000000000100000 
00000011111000000000000000001000 

00000000000000000001000000100001 



























$29, $29 =32 
$31, 20($29) 
» S32($29) 
，36($29) 
，24($29) 
，28($29) 
$14, 28($29) 
$24, 24($29) 








$25, 24($29) 
$4, 4096 
$5, 24($29) 
1048812 
$4, $4, 1072 
$31, 20($29) 
addiu $29, $29,，32 
jr $31 
move $2, $0 














图 A-1-2 MIPS 用 来 计算 和 打印 出 0 ~100 的 整 图 A-1-3 ”同一 个 程序 (图 A-1-2) 的 汇编 语言 版 。 
数 的 平方 和 的 机 器 语言 代码 然而 ， 这 个 程序 的 代码 没有 标记 寄存 器 或 
者 内 存 地 址 ， 也 没有 包含 注释 

图 A-1-4 展示 了 汇编 语言 使 用 记忆 名 称 来 标志 内 存 地 址 指令 。 很 多 程序 员 喜 欢 以 这 种 方式 

来 读 和 写 指令 。 那 些 名 字 前 有 个 点 ,例如 .data 以 及 .globl， 是 汇编 指令 (assembler direc- 

tive) ， 告 诉 汇编 器 如 何 翻译 程序 ， 但 是 不 需要 产生 机 器 指令 。 名 字 后 面 跟 一 个 冒号 ， 如 str: 

或 者 main:， 这 些 标签 是 下 一 个 内 存 地 址 的 名 字 。 这 个 程序 和 汇编 语言 程序 一 样 具有 可 读 性 

(除了 没有 耀眼 的 注释 ) ， 但 是 它 还 是 很 难 遵循 ， 因 为 需要 很 多 简单 的 操作 来 完成 简单 的 任务 ， 
因为 汇编 语言 缺乏 控制 流 结构 ， 为 程序 的 操作 提供 很 少 的 暗示 。 
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2 汇编 指令 : 一 个 告诉 汇编 器 如 何 翻译 程序 ， 但 是 不 会 产生 机 器 指令 的 操作 ， 通 常 它 以 圆 点 
开始 。 
对 比 之 下 ,图 A-1-5 的 C 程序 不 但 短 而 且 很 清晰 ， 因 为 具有 记忆 名 字 的 变量 和 循环 是 显 式 


的 ， 而 不 是 分 支 结构 的 。 实 际 上 ，C 程序 是 唯一 一 个 我 们 自己 写 的 程序 。 其 他 形式 的 程序 都 是 
C 编译 器 和 汇编 器 产生 的 。 


, 24($sp) 
， 28($sp) 


，28($sp) 


$sp $sp, 32 
$ra 


.align 0 
SEs 
.asciiz "The sum from 0 .. 100 is %d\n" 





图 A-1-4 使 用 带 有 标签 (label) 的 汇编 语言 写 的 同一 个 程序 ， 但 是 没有 注释 。 以 圆 点 开始 的 指令 是 汇 
编 指令 ( 见 A. 10 节 ) 。. text 指示 后 续 的 行 包含 着 指令 。. data 指示 出 它们 包含 数据 。 
.align n 指 示 后 面 这 些 行 的 元 素 应 该 是 按照 2" 来 边界 对 齐 的 。 因 此 ，.align 2 就 是 下 一 
个 元 素 按 照 字 对 齐 。.globl main 声明 了 main 是 一 个 全 局 的 符号 ， 应 当 对 于 其 他 文件 中 的 
代码 来 说 是 可 见 的 。 最 后 , .asciiz 保存 了 内 存 中 的 空 终结 符 


#include 《stdio.h> 


int 
main (int argc, char *argv[]) 
{ 


Png Ps 
int sum = 0; 


for (i = 0; i <= 100; i =i+1) sum= Sum+i * 1; 
printf (“The sum from 0 .. 100 is %d\n”, sum); 





图 A-1-5 使 用 C 程序 语言 编写 的 程序 
通常 ， 汇 编 语言 扮演 两 个 角色 ( 见 图 A-1-6) 。 第 一 个 角色 是 编译 器 的 输出 语言 。 编 译 器 
将 使 用 高 级 语言 (C 或 者 Pascal) 写 的 程序 翻译 成 机 器 语言 或 者 汇编 语言 表示 的 等 价 的 程序 。 
高 级 语言 被 称 为 源 语 言 (source language) ， 而 编译 器 的 输出 是 目标 语言 。 


人 源 语言 : 一 种 直接 用 来 编写 程序 的 高 级 语言 。 


汇编 语言 的 另 一 个 角色 是 作为 一 种 编程 语言 。 这 个 角色 通常 是 它 的 主要 功能 。 然 而 ,今天 
由 于 大 的 内 存 以 及 更 优良 的 编译 器 ， 很 多 程序 员 使 用 高 级 语言 编写 程序 ， 而 且 很 少 看 见 计 算 机 
执行 的 指令 。 然 而 ， 当 速度 和 面积 很 关键 或 者 为 了 开发 硬件 特性 ， 而 高 级 语言 中 没有 这 些 特性 
时 ,汇编 语言 仍然 是 很 重要 的 。 


[A-5 | 


[A-6 | 
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A-7 





A-8 


高 级 语言 程序 


程序 编译 器 一 一 ~ 汇编 器 “一 > 链接 器 【一 一 ~， 计算 机 


汇编 语言 程序 
图 A-1-6 汇编 语言 由 程序 员 编 写 或 由 编译 器 输出 


虽然 本 附录 关注 MIPS 汇编 语言 ， 但 汇编 语言 编程 在 很 多 的 其 他 机 器 上 也 是 很 相似 的 。 
CISC 机 器 〈 如 VAX) 中 的 附加 指令 以 及 寻 址 模式 ， 可 使 得 汇编 程序 变 短 ， 但 是 不 会 改变 程序 
的 汇编 流程 ， 而 且 为 汇编 语言 提供 了 高 级 语言 的 优势 ， 例 如 ， 类 型 检测 以 及 结构 控制 流 。 


A. 1.1 什么 时 候 使 用 汇编 语言 


与 高 级 语言 相 比 ， 使 用 汇编 语言 编程 的 主要 原因 是 ， 它 在 速度 和 代码 大 小 方面 具有 优势 ， 
而 这 两 者 极为 重要 。 例 如 ， 一 台 算 机 ， 它 控制 着 机 器 的 一 个 部 分 ， 如 汽车 刹车 。 一 台 计 算 机 被 
合并 到 另 一 个 设备 中 ， 例 如 一 辆 汽车 ， 该 计算 机 就 被 称 作 府 入 式 计算 机 。 这 种 类 型 的 计算 机 需 
要 对 外 部 世界 的 事件 做 出 快速 的 可 预测 的 反应 。 由 于 编译 器 对 操作 所 花费 的 时 间 引 入 了 不 确定 
性 ， 程 序 员 可 能 会 发 现 很 难保 证 高 级 语言 编写 的 程序 能 在 给 定 的 时 间 间 隔 〈 传 感 器 检测 到 轮胎 
打滑 后 的 一 毫秒 内 ) 做 出 响应 。 另 一 方面 ， 一 个 汇编 语言 程序 员 ， 具 有 对 指令 执行 的 紧密 控 
制 。 另 外 ,在 嵌入 式 应 用 中 , 减 小 了 代码 的 体积 ， 可 使 用 更 小 的 存储 芯片 ， 减 小 戏 人 式 计算 机 
的 代价 。 

一 种 混合 的 方法 是 ， 程 序 大 部 分 用 高 级 语言 编写 ， 时 间 关 键 部 分 用 汇编 语言 编写 ， 同 时 利 
用 这 两 种 语言 。 程 序 通常 花费 很 多 时 间 执 行程 序 源 代码 中 的 很 少 一 部 分 。 这 种 发 现 就 是 cache 
中 的 局 部 性 原理 〈 见 第 5 章 的 5.1 市 )。 

程序 分 析 测 量 一 个 程序 在 哪里 花费 了 时 间 并 找 出 其 时 间 关 键 部 分 。 大 多 数 情 况 下 ， 程 序 的 
这 个 部 分 可 以 使 用 更 好 的 数据 结构 或 者 算法 来 实现 。 然 而 ， 有 时 候 ， 显 著 的 性 能 提高 只 能 通过 
用 汇编 语言 重 写 那 段 关 键 代 码 得 到 。 

这 种 改进 并 不 意味 着 高 级 语言 的 编译 器 就 失效 了 。 在 为 整个 程序 产生 统一 的 高 质量 机 器 代 
人 码 方面 ， 编 译 器 通常 比 程序 员 效 果 更 好 。 然 而 ,程序 员 比 编译 器 在 更 深层 次 上 理解 程序 的 算法 
和 行为 ， 而 且 能 够 通过 大 量 的 努力 和 精巧 的 设计 提高 小 段 代码 的 质量 。 尤 其 ， 编 程 人 员 在 编写 
代码 时 ， 同 时 考虑 好 几 个 子 程序 段 。 编 译 器 通常 单独 编译 一 个 程序 段 ， 而 且 必 须 遵循 严格 的 规 
则 ， 在 程序 段 的 边界 处 管理 寄存 器 的 使 用 。 通 过 在 寄存 器 中 保存 那些 经 常 被 使 用 的 值 ， 甚 至 跨 
越 程序 边界 ， 编 程 人 员 可 以 使 得 程序 运行 得 更 快 。 

汇编 语言 的 另 一 个 主要 优点 是 能 够 利用 定制 的 指令 一 一 例如 ， 字 符 串 复制 指令 或 者 模式 匹 
配 指令 。 很 多 时 候 ， 编 译 器 不 能 确定 一 个 循环 程序 能 不 能 被 一 条 指令 替代 掉 。 然 而 ， 编 写 循环 
的 那个 程序 员 能 够 很 容易 地 使 用 一 个 指令 将 其 替换 掉 。 

目前 ， 由 于 编译 技术 的 提高 以 及 机 器 流水 线 的 存在 带 来 的 复杂 度 〈 见 第 4 章 ) ， 程 序 员 很 
难 比 编译 器 更 具 优势 。 

使 用 汇编 语言 的 最 后 一 个 原因 是 ， 没 有 哪个 高 级 语言 能 够 适用 于 一 个 特定 的 计算 机 。 很 多 
老 的 或 者 定制 的 计算 机 没有 编译 器 ， 所 以 编程 人 员 唯 一 的 选择 就 是 汇编 语言 。 


A.1.2 汇编 语言 的 缺点 
汇编 语言 的 很 多 缺点 极 大 地 限制 了 它 的 广泛 使 用 。 也 许 它 的 主要 缺点 就 是 使 用 汇编 语言 
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编写 的 程序 本 质 上 是 针对 特定 机 器 的 ， 而 且 如 果 需 要 在 另 一 种 计算 机 结构 中 运行 ， 就 必须 
重 写 。 第 1 章 讨论 了 计算 机 的 快速 发 展 ， 意 味 着 体系 结构 变 得 过 时 。 一 个 汇编 语言 程序 仍旧 
和 它 的 原始 体系 结构 紧 紧 地 绑 定 在 一 起 ， 即 使 该 计算 机 已 被 世 新 、 快 速 、 性 价 比 更 高 的 机 
器 所 遮蔽 。 

汇编 语言 的 另 一 个 缺点 是 ， 汇 编程 序 比 等 价 的 高 级 语言 程序 更 长 。 例 如 ， 图 A-1-5 的 C 程 
序 仅 有 11 行 ， 但 是 图 A-1-4 的 汇编 程序 有 31 行 。 在 更 复杂 的 程序 中 ， 汇 编 和 高 级 语言 程序 的 
比率 (扩展 因子 ) 将 更 长 ， 远 不 止 像 在 这 个 例子 中 的 3 倍 这 样 。 不 幸 的 是 ， 实 际 的 研究 表明 ， 
程序 员 能 够 每 天 大 约 编写 同 高 级 语言 行 数 一 样 多 的 汇编 语言 。 这 就 意味 着 程序 员 使 用 高 级 语言 
大 约会 产生 * 倍 的 生产 率 ， 这 里 的 x 是 汇编 语言 扩展 因子 。 

长 的 程序 更 难 阅读 和 理解 ， 而 且 这 些 代 码 会 包含 更 多 的 错误 使 得 问题 更 为 恶化 。 汇 编 语 言 
使 得 这 个 问题 恶化 ， 因 为 它 缺 乏 完备 的 结构 。 常 见 的 编程 用 语 ， 例 如 Hf-then 语句 和 循环 ， 汇 编 
语言 必须 通过 分 支 和 跳 转 来 实现 。 导 致 程序 变 得 很 难 读 懂 ， 因 为 读者 必须 从 汇编 语言 的 每 一 名 
来 为 每 个 高 级 语言 结构 重建 ， 这 是 很 困难 的 。 例 如 ， 看 图 A-1-4 并 回答 下 面 的 问题 : 使 用 的 什 
么 循环 ? 它 的 下 界 和 上 界 分 别 是 什么 ? 


区 | 精 解 不 需要 汇编 器 ， 编 译 器 直接 产生 机 器 语言 。 与 使 用 汇编 器 作为 编译 的 一 部 分 的 那些 
编译 器 相 比 ， 这 些 编译 器 通常 执行 得 更 快 。 然 而 ， 产 生机 器 码 的 编译 器 必须 执行 一 个 汇编 
器 通常 执行 的 那些 任务 ， 例 如 ， 翻 译 地 址 ， 将 指令 编码 成 二 进 制 数字 。 在 编译 速度 和 编译 
器 的 简洁 性 之 间 进 行 折 中 。 

加 | 精 解 ”尽管 有 这 些 考虑 ， 一 些 嵌入 式 应 用 使 用 高 级 语言 编写 。 很 多 这 样 的 应 用 的 程序 很 
大 ,而且 很 复杂 ， 这 样 的 程序 必须 极其 可 靠 。 汇 编 语言 程序 相对 于 高 级 语言 程序 更 长 而 且 
更 难 编写 。 这 极 大 地 增加 了 使 用 汇编 语言 编写 程序 的 代价 ， 使 得 验证 这 些 程序 的 正确 性 极 
其 困难 。 事 实 上 ， 这些 考虑 导致 为 这 些 谋 入 式 系统 埋单 的 国防 部 门 开发 Ada 一 一 一 种 编写 
嵌入 式 系统 的 新 高 级 语言 。 





A.2 汇编 器 


汇编 器 将 汇编 语言 文件 翻译 成 二 进 制 机 器 指令 和 二 进 制 数据 组 成 的 文件 。 翻 译 过程 有 两 个 
主要 步骤 。 第 一 步 ， 找 到 标签 (label) 对 应 的 内 存 地 址 ， 因 此 符号 名 字 和 地 址 之 间 的 关系 在 指 
令 被 翻译 的 时 候 就 确定 了 。 第 二 步 ， 将 每 个 汇编 语句 的 数字 化 的 操作 码 、 寄 存 器 指示 器 和 标签 
翻译 成 合法 的 指令 。 如 图 A-1-1 所 示 ， 汇编 器 产生 一 个 输出 文件 ， 叫 作 目 标 文件 ， 目 标 文 件 包 
含 机 器 指令 、 数 据 和 书签 信息 。 

目标 文件 通常 不 能 被 执行 ， 因 为 它 引用 了 其 他 文件 中 的 过 程 或 数据 。 如 果 标 签 目标 可 以 
被 定义 它 的 文件 之 外 的 其 他 文件 所 应 用 ， 那么 这 个 就 是 外 部 标签 〈external label) (也 称 为 
全 局 标签 ) 。 如 果 仅 仅 能 在 定义 它 的 文件 内 部 被 引用 ， 则 标签 是 局 部 的 。 很 多 的 汇编 器 ， 默 
认 标 签 是 局 部 的 ， 而 且 必须 是 显 式 声明 为 全 局 的 。 子 程序 和 全 局 变量 需要 外 部 标签 ， 因 为 
它们 在 一 个 程序 中 被 很 多 文件 所 引用 。 局 部 标签 (local label) 隐藏 了 对 别 的 模块 不 可 见 的 
名 字 一 一 例如 ，C 中 的 静态 函数 仅仅 被 同一 个 文件 中 的 函数 所 调用 。 另 外 ， 编 译 产生 的 名 
字 一 一 例如 ， 一 个 循环 的 开始 处 的 指令 的 名 字 一 一 就 是 局 部 的 ， 这 样 编译 器 就 不 需要 为 每 个 
文件 产生 唯一 的 名 字 。 


人 “外 部 标签 : 也 称 为 全 局 标签 。 标 签 对 应 一 个 目标 ， 这 个 目标 可 以 在 定义 这 个 标签 的 文件 之 
外 被 引用 。 


LA-9 | 
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全 局 部 标签 : 标签 对 应 一 个 目标 ， 这 个 目标 仅仅 可 以 被 定义 这 个 标签 的 文件 内 部 引用 。 


图! 例题 局 部 和 全 局 标签 

考虑 图 A-1-4 中 的 程序 。 子 程序 具有 一 个 外 部 标签 (全 局 ) main， 它 包含 了 两 个 局 部 标 
签 一 一 loop 和 stzr 一 一 它们 仅仅 在 这 个 汇编 文件 中 是 可 见 的。 最 终 ， 包 含 一 个 对 外 部 标签 
printf 来 说 未 处 理 〈unresolved) 的 引用 ，printf 是 一 个 打印 数值 的 库 程序 。 图 A-1-4 中 的 
标签 能 否 从 男 一 个 文件 引用 ? 
国 | 答案 


仅 全 局 标签 在 外 部 是 可 见 的 ， 所 以 仅 main 标签 可 以 在 外 部 被 引用 。 O 


因为 汇编 器 独立 地 处 理 每 一 个 文件 ， 它 仅 知 道 每 个 局 部 标签 的 地 址 。 汇 编 器 依赖 于 别 的 工 
具 ， 如 利用 链接 器 (linker) 将 目标 文件 以 及 库 文件 整合 起 来 形成 可 执行 文件 ,并且 将 外 部 标 
签 处 理 掉 。 汇 编 器 通过 提供 标签 的 列表 以 及 未 处 理 的 引用 来 辅助 链接 器 工作 。 

然而 ， 局 部 标签 对 汇编 器 来 说 还 是 个 令 人 感 兴趣 的 挑战 。 和 大 部 分 高 级 语言 中 的 名 字 不 
同 ， 汇 编 标签 可 能 在 它们 定义 之 前 就 使 用 。 例 如 ， 在 图 A-1-4 中 ,标签 str 在 定义 之 前 就 被 
1a 指令 使 用 。 一 个 前 向 引用 (forward reference) 的 可 能 性 ， 就 像 前 面 这 个 例子 ， 强 迫 汇编 器 
将 一 个 程序 的 翻译 过 程 分 成 两 步 : 首先 找到 所 有 的 标签 ， 然 后 产生 指令 。 例 如 ， 当 汇编 侣 看 到 
指令 1a， 它 不 知道 这 个 标签 为 str 的 字 在 哪里 ， 或 者 甚至 不 知道 str 这 个 标签 到 底 是 指令 还 
是 数据 。 


了 ”前 向 引用 : 一 个 标签 在 被 定义 之 前 就 被 使 用 。 


第 一 遍 ， 汇 编 器 将 汇编 文件 的 每 一 行 读 人 ， 将 其 分 解 成 几 个 部 分 。 这 些 部 分 叫 作 词汇 单 
位 ， 都 是 独立 的 字 、 数 字 和 标点 符号 。 例 如 ， 下 面 的 行 

ble $t0, 100, loop 
包含 6 个 词汇 单元 : ble 指令 的 操作 码 、 寄 存 器 说 明 符 $t0 、 逗 号 、 数 字 100 、 喜 号， 还 有 符 
号 1oop。 

如 果 一 行 以 标签 作为 开始 ， 汇 编 器 在 它 的 符号 表 (symbol table) 中 记录 标签 的 名 字 ， 以 及 
指令 在 内 存 中 占据 的 内 存 字 的 地 址 。 汇 编 器 接着 计算 当前 行 中 这 个 指令 内 存 中 占据 多 少 个 内 存 
字 。 通 过 跟踪 指令 大 小 ， 汇 编 器 可 以 确定 下 一 条 指令 在 哪里 。 为 了 计算 一 个 可 变 长 度 的 指令 大 
小 ， 例 如 在 VAX 中 ， 汇 编 器 必须 仔细 地 确定 这 些 。 然 而 ， 对 于 固定 长 度 的 指令 ， 像 MIPS 中 的 
那些 ， 仅 仅 需 要 粗略 计算 。 汇 编 器 采用 类 似 的 办 法 计算 数据 语句 需要 的 空间 。 当 汇编 器 到 达 一 
个 汇编 文件 未 尾 时 ， 符 号 表 记 录 了 文件 中 每 个 标签 的 位 置 。 


号 ”符号 表 : 用 来 将 标签 的 名 字 和 指令 占用 的 内 存 字 的 地 址 相 匹配 的 一 个 表 。 


第 二 遍 ， 汇 编 器 使 用 整个 文件 的 符号 表 中 的 信息 ， 在 这 一 遍 产 生机 器 代码 。 汇 编 器 再 一 次 
检查 文件 中 每 一 行 。 如 果 一 行 中 包含 了 指令 ， 汇 编 器 将 其 指令 码 和 操作 数 (寄存 器 指示 器 或 者 
内 存 地 址 ) 组 合成 一 条 合法 的 指令 。 这 个 过 程 和 第 2 章 的 2.5 节 的 做 法 很 相似 。 引 用 在 另 一 个 
文件 中 定义 的 外 部 标签 指令 和 数据 字 不 能 完全 地 汇编 〈 因 为 它们 是 未 决 的 ) ， 因 为 符号 的 地 址 
不 在 符号 表 中 。 汇 编 器 确实 不 能 对 这 些 未 决 的 引用 发 牢骚 ， 因 为 对 应 的 标签 很 可 能 在 另 一 个 文 
件 中 定义 。 


车] 重点 汇编 语言 是 一 种 编程 语言 。 它 和 高 级 语言 (如 BASIC、Java 和 C) 的 主要 不 同 是 
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汇编 语言 提供 了 很 少 、 简 单 的 数据 以 及 控制 流 。 汇 编 语言 程序 不 能 指定 一 个 变量 中 的 
数据 类 型 。 相 反 ， 编程 人 员 必 须 对 一 个 值 使 用 恰当 的 操作 (例如 ， 整 数 或 者 浮 点 加 
法 ) 。 另 外 ， 在 汇编 语言 中 ， 程 序 的 所 有 控制 流 必 须 使 用 go to 实现 。 这 两 个 因素 使 得 汇 
编 语言 编程 对 于 任何 机 器 一 一 MIPS 或 者 x86 比 使 用 高 级 语言 编程 更 困难 而 且 更 容易 
出 错 。 


精 解 ”如果 汇 编 器 的 速度 比较 重要 ， 两 步 的 过 程 可 以 采用 反 向 修补 (backpatching) 技术 
一 次 遍历 汇编 文件 来 实现 。 在 这 一 次 遍历 中 ， 汇 编 器 构建 每 个 指令 的 一 个 〈 可 能 不 完整 
的 ) 二 进 制 表示 。 如 果 指 令 引 用 了 一 个 还 没有 定义 的 标签 ， 汇 编 器 在 表 中 记录 下 这 个 标 
签 和 指令 。 当 标签 被 定义 后 ， 汇 编 器 查询 这 个 表 ， 找 到 包含 对 标签 的 所 有 前 向 〈forward) 
引用 的 所 有 指令 。 汇 编 器 回 卷 并 校正 它们 的 二 进 制 表 示 ， 然 后 将 它们 并 入 标签 地 址 ， 反 向 
修补 技术 能 加 速 汇编 的 原因 在 于 : 汇编 器 对 输入 只 读 一 次 。 然 而 ， 它 需要 汇编 器 将 程序 的 
整个 二 进 制 表示 保持 在 内 存 中 ,这 样 指令 才 可 以 被 反复 修补 。 这 个 需求 会 限制 被 汇编 的 程 
序 大 小 。 这 个 过 程 被 那 种 具有 几 种 类 型 的 跨度 范围 不 同 的 分 支 的 机 器 复杂 化 了 。 当 汇编 器 
第 一 次 在 分 支 指令 中 见 到 没有 处 理 的 标签 时 ， 它 必须 要 么 使 用 最 大 的 分 支 ， 要么 冒险 返回 
去 ， 并 且 重 新 调整 很 多 指令 ， 以 便 为 大 的 分 支 指令 腾 出 位 置 。 





反 向 修补 : 一 种 将 汇编 语言 翻译 成 机 器 指令 的 办 法 ， 其 中 汇编 器 在 第 一 遍 扫 描 程 序 时 就 构 
建 一 个 (可 能 不 完整 的 ) 每 个 指令 的 二 进 制 表示 ， 然 后 返回 对 前 面 没 有 定义 的 标签 进行 
替换 。 


A.2.1 目标 文件 的 格式 


汇编 器 产生 目标 文件 。UNIX 上 的 目标 文件 包含 6 个 不 同 的 部 分 〈 见 图 A-2-1) : 

e 目标 文件 头 描 述 了 文件 中 其 他 段 的 大 小 和 位 置 。 

e 代码 段 (text segment) 包含 了 源 文 件 中 程序 的 机 器 语言 代码 。 这 些 程序 可 能 是 不 可 执 
行 的， 因为 包含 了 未 处 理 的 引用 。 

。 数据 段 (data segment) 包含 了 源 文件 中 数据 的 二 进 制 表示 。 数 据 可 能 是 不 完整 的 ， 因 
为 未 解决 的 引用 可 能 包含 在 其 他 文件 中 。 

e 重 定位 信息 (relocation information ) 指明 指令 和 数据 字 依赖 于 绝对 地 址 (absolute ad- 
dress) 。 如 果 程 序 的 这 些 部 分 在 内 存 中 被 移动 ， 这 些 引 用 必须 改变 。 

e 符号 表 中 包含 源 文 件 中 外 部 标签 对 应 的 地 址 ， 列 出 未 处 理 的 引用 。 

。 调试 信息 包含 了 被 编译 的 程序 的 简洁 描述 ， 这 样 调试 器 可 以 找到 源 文件 中 对 应 行 的 指 
令 地 址 ， 而 且 打 印 出 可 读 形式 的 数据 结构 。 


代码 段 : UNIX 目标 文件 的 一 个 段 ， 包 含 源 文 件 中 程序 的 机 器 语言 代码 。 
数据 段 UNIX 目标 文件 或 者 可 执行 文件 的 一 个 段 ， 包 含 程序 初始 所 使 用 的 数据 的 二 进 抽 
表示 。 
重 定 位 信息 : UNIX 目标 文件 的 一 个 段 ， 根 据 绝对 地 址 来 区 别 数据 字 和 指令 。 
绝对 地 址 ; 内 存 中 变量 或 者 程序 的 实际 地 址 。 

目标 文件 头 ” 代码 段 | 数据 段 ” 重 定位 信息 ， 符号 表 | 调试 信息 - 


图 A-2-1 目标 文件 . UNIX 的 汇编 器 产生 一 个 具有 6 个 不 同 段 的 目标 文件 
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汇编 器 产生 包含 程序 和 数据 的 二 进 制 表示 的 目标 文件 ， 以 及 其 他 有 助 于 将 程序 的 片段 连接 
起 来 的 信息 。 

重 定位 信息 是 必要 的 ， 因 为 当 一 个 程序 片段 或 者 数据 块 和 程序 剩余 的 部 分 链接 后 ， 汇 编 器 
不 知道 这 些 程序 或 者 代码 将 会 被 存放 到 内 存 的 什么 位 置 。 一 个 文件 的 程序 和 数据 被 保存 在 内 存 
中 的 一 个 连续 的 区 域 ， 但 是 汇编 器 不 知道 这 段 内 存 如 何 定位 。 汇 编 器 还 会 将 一 些 符号 表 入 口传 
递 给 链接 人 器。 尤其， 汇编 器 必须 记录 哪个 外 部 符号 在 一 个 文件 中 定义 ， 这 个 文件 中 哪些 引用 没 
有 解决 。 


加 | 精 解 ” 为 方便 起 见 ， 汇 编 器 假设 每 个 文件 以 相同 的 地 址 开始 (例如 ， 地 址 0) ， 当 它们 在 
内 存 中 分 配 地 址 时 ， 期 望 链接 器 把 代码 和 数据 重新 定位 。 汇 编 器 产生 重 定位 信息 ， 这 些 信 
息 包 含 一 个 入 口 ， 描 述 文件 中 的 每 个 指令 或 数据 字 ， 这 些 字 访问 绝对 地 址 。 对 于 MIPS ， 
仅仅 子 程序 调用 、 装 载 和 保存 指令 引用 绝对 地 址 。 例 如 分 支 ， 使 用 指令 PC 相对 寻 址 ， 不 
需要 定位 。 


A. 2.2 附加 工具 


汇编 器 提供 一 类 方便 的 特性 帮助 汇编 程序 变 得 短 而 且 容易 写 ， 但 是 没有 从 根本 上 改变 汇编 
语言 。 例 如 ， 数 据 布 局 指令 允许 一 个 编程 者 来 描述 以 一 种 比 二 进 制 方式 更 简明 和 自然 的 方式 来 
表示 数据 。 

在 图 A-1-4 中 ， 指 令 

-asciiz “The sum from 0 .. 100 is %d\n™ 
在 内 存 中 保存 字符 串 的 字符 。 将 这 条 指令 和 它 的 各 个 字符 的 ASCI 值 〈 这 些 字符 的 ASCII 表示 
见 第 2 章 的 图 2-15) 进行 比较 : 

.byte 84, 104, 101, 32, 115, 117, 109, 32 

.byte 102, 114, 111, 109, 32, 48, 32, 46 


.byte 46, 32, 49, 48, 48, 32, 105, 115 
sbyte 32s 371s 100; 105 0 


. asciiz 描述 更 容易 读 懂 ， 因 为 它 使 用 字母 表示 字符 ， 而 不 是 使 用 二 进 制 数 字 。 汇 
编 器 能 够 比 人 更 快速 且 更 准确 地 将 字符 转换 成 它们 的 二 进 制 表示 。 数 据 布局 指令 指定 一 
个 人 类 可 读 的 数据 格式 ， 汇 编 器 将 其 转换 成 二 进 制 。 其 他 字符 串 指 令 布局 指令 在 A. 10 节 
描述 。 


苇 ] 例题 * 使 用 这 个 指令 定义 一 串 字 节 : 


.asciiz“The quick brown fox jumps over the lazy dog” 


著 ] 答案 


“byte 4 104;, 101, 32, 113, /7/, L105 ;99 

-byte 107, 32, 98， i14; 111, 119,; 110, 32 

byte 102; 111, 120; 32; 106, 117; 09; :112 

‘byte L115, 32, 11l. 118;, 10L, 114: 32;, E16 

abyte L004 101, 32; 108;, ‘97: Jl22: lj 记 1, :32 

“byte 100,. Ll L038, 0 DOD 


宏 (macro) 是 一 种 模式 匹配 和 替换 工具 ， 提 供 一 种 简单 的 机 制 来 命名 一 个 经 常 使 用 的 指 
令 序 列 。 不 用 每 次 使 用 同样 的 指令 时 重复 输入 ， 程 序 员 只 要 启动 宏 , 汇编 器 使 用 对 应 的 指令 序 
列 替换 这 个 宏 调用 。 与 子 程序 类 似 ， 宏 允许 程序 员 为 一 个 公用 操作 产生 和 命名 一 个 新 的 抽象 。 
和 子 程 序 不 同 的 是 ， 宏 不 会 导致 一 个 子 程序 调用 ， 也 不 会 在 程序 运行 时 返回 ， 因 为 一 个 宏 的 调 
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用 会 在 程序 汇编 的 时 候 被 一 个 宏 体 替 换 。 在 替换 完毕 后 ， 产 生 的 汇编 程序 和 没有 使 用 宏 的 对 等 
程序 没有 区 别 。 


四 | 例题 : 安 

例如 ， 假 设 程序 员 需 要 打印 很 多 数字 。 一 个 库 例 程 printf 接受 一 个 格式 化 的 字符 串 ， 以 
及 一 个 或 更 多 个 要 打印 的 值 作为 其 参数 。 程 序 员 能 够 使 用 下 面 的 指令 打印 出 寄存 器 $7 中 的 
整数 : 


.data 
int stre SET %d” 
.text 
1a $a0, int_str # Load string address 
# into first arg 
mov $al, $7 # Load value into 


# second arg 
jal printf # Call the printf routine 


. data 指令 告诉 汇编 器 将 字符 串 保 存 到 程序 的 数据 段 ， 而 且 . text 指令 告诉 汇编 器 将 指 
令 保存 到 代码 段 。 

然而 ， 以 这 种 方式 打印 很 多 数字 (程序 写 起 来 ) 相当 乏味 ,而且 产生 的 元 长 的 程序 让 人 
很 难 读 懂 。 一 种 可 供 选 择 的 办 法 是 引入 宏 ，print_int， 来 打印 一 个 整数 : 


.data 
int_str:.asciiz “%d” 
.text 
.macro print_int($arg) 
la $a0, int_str # Load string address into 
# first arg 
mov $al, $arg # Load macro’s parameter 
# ($arg) into second arg 
jal printf # Call the printf routine 
.end_macro 
print_int($7) 


宏 有 一 个 形式 参数 (formal parameter) $arg， 它 是 用 来 为 宏 的 参数 命名 。 当 宏 被 展开 时 ， 
贯穿 宏 体 的 形式 参数 被 来 自 调用 的 参数 替换 。 之 后 汇编 器 使 用 最 新 扩展 的 宏 体 替换 这 个 宏 调 
用 。 对 于 第 一 次 print _int 的 调用 ， 参 数 是 $7， 所 以 宏 扩 展 成 以 下 代码 : 

la $a0, int_str 


mov $al, $7 
jal printf 


形式 参数 : 过 程 或 者 宏 的 参数 变量 ， 一 旦 这 个 变量 被 参数 替换 ， 宏 就 被 展开 。 


全 


在 第 二 次 调用 print_int 时 ， 也 就 是 说 ，print_int ($t0)， 参数 是 $t0， 宏 被 展开 为 : 
la $a0, intstr 

mov $al, $t0 

jal printf 


调用 print _int ($a0) 展 开 后 的 结果 是 什么 ? 
团 答案 
la $a0, int_str 


mov $al, $a0 
jal printf 


这 个 例子 暴露 了 宏 的 一 个 缺点 。 程 序 员 使 用 宏 必 须 意识 到 print_int 使 用 寄存 器 $a0， 
所 以 不 能 正确 地 打印 那个 寄存 器 的 值 。 口 
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图 ! 硬件 /软件 接口 ”一 些 编译 器 也 实现 了 伪 指令 (pseudoinstruction) ， 这 是 汇编 器 提供 的 指 
令 ， 但 是 在 硬件 上 没有 实现 。 第 2 章 包 含 很 多 MIPS 汇编 器 如 何 综合 伪 指 令 和 寻 址 方式 的 
例子 ， 该 寻 址 方式 来 自 spartan MIPS 硬件 指令 集 。 例 如 ， 第 2 章 的 2.7 节 描述 了 汇编 器 如 
何 从 其 他 两 个 指令 (slt 和 bne) 综合 blt 指令 。 通 过 扩展 指令 集 ，MIPS 汇编 器 使 得 汇 
编 语 言 编程 更 容易 ， 而 没有 使 硬件 变 得 更 复杂 。 很 多 伪 指 令 能 够 使 用 宏 来 模拟 ， 但 是 有 这 
些 指令 ，MIPS 汇编 器 能 产生 更 好 的 代码 ， 因 为 它 使 用 专用 的 寄存 器 ($at)， 能够 优化 
产生 的 代码 。 

园 ; 精 解 汇编 器 有 条 件 地 将 代码 汇编 起 来 ， 这 允许 当 汇 编程 序 时 ， 编 程 者 可 以 将 一 组 指令 包 
含 进 去 ， 或 者 将 一 组 指令 剔除 出 去 。 当 几 个 版 本 的 程序 在 一 定 程度 上 不 同时 ， 这 个 特性 万 
其 有 用 。 不 是 将 这 些 程序 放 在 单独 的 文件 中 一 一 这 样 会 将 通用 代码 中 的 固定 错误 (bug) 
复杂 化 一 一 编程 者 通常 将 几 个 版 本 融合 成 一 个 文件 。 代 码 的 一 个 特定 的 版 本 被 有 条 件 地 汇 
编 ， 以 使 综合 程序 的 其 他 版 本 时 ， 这 部 分 代码 可 排除 在 外 。 

如 果 宏 和 条 件 汇编 有 用 ,为 什么 UNIX 系统 很 少 提 供 汇 编 器 ? 一 个 原因 是 ， 在 这 些 系 
统 上 很 多 编程 者 使 用 像 C 这 样 的 高 级 语言 编写 程序 。 大 部 分 汇编 代码 由 编译 器 产生 ， 编 
译 器 发 现 重复 代码 比 定义 宏 更 方便 。 另 一 个 原因 是 ，UNIX 上 的 其 他 工具 一 一 例如 ，C 的 
预 处 理 器 cpP， 或 者 一 个 通用 的 宏 处 理 器 m4 能 提供 汇编 程序 的 宏 定 义 以 及 条 件 汇编 。 





A. 3 链接 器 


单独 编译 ( separate compilation) 允许 程序 被 分 割 成 多 个 片段 ， 它 们 被 保存 在 不 同 的 文件 
中 。 每 个 文件 包含 一 个 逻辑 相关 的 子 程序 以 及 数据 结构 组 成 的 模块 ， 这 些 文件 形成 一 个 大 的 程 
序 。 文 件 能 够 被 编译 ， 而 且 和 其 他 的 文件 一 样 单独 被 汇编 ， 所 以 一 个 模块 的 修改 不 需要 重新 编 
译 整个 程序 。 就 像 我 们 在 上 面 讨论 的 ， 单 独 编译 需要 一 个 格外 的 链接 步骤， 以 将 单独 的 模块 组 
成 一 个 目标 文件 ， 将 其 未 解决 的 引用 解决 。 


令 “ 单独 编译 : 将 程序 划分 成 多 个 文件 ， 每 个 文件 被 编译 时 ， 并 不 知道 其 他 文件 的 信息 。 


将 多 个 文件 融合 在 一 起 的 工具 叫 作 链接 器 〈linker) 〈 见 图 A-3-1) 。 它 执行 三 个 任务 : 

。 为 了 寻找 程序 所 使 用 的 库 程序 而 查询 程序 库 。 

。 为 每 个 模块 中 的 代码 将 要 占用 的 内 存 确 定 内 存 地 址 ， 通 过 调整 绝对 引用 ， 将 这 些 指 令 

重 定 位 。 

。 解决 文件 间 的 引用 。 

链接 器 的 第 一 个 任务 是 确保 程序 不 包含 没有 定义 的 标签 。 链 接 器 匹配 外 部 的 符号 以 及 程序 文 
件 中 未 解决 的 引用 。 如 果 一 个 文件 中 外 部 符号 和 另 一 文件 中 的 引用 具有 相同 名 字 的 标签 ， 则 未 决 
的 引用 被 确定 。 不 匹配 的 引用 意味 着 一 个 符号 被 使 用 ， 但 是 在 程序 的 任何 地 方 都 没有 定义 。 

在 链接 期 间 发 现 未 解决 的 引用 并 不 一 定 意味 着 程序 员 犯 了 错误 。 程 序 可 能 引用 了 一 个 库 隆 
数 ， 该 库 函 数 的 代码 不 在 传递 到 链接 器 的 目标 代码 中 。 在 程序 中 匹配 符号 完毕 后 ， 链 接 器 搜寻 
系统 的 程序 库 ， 目 的 是 找 程序 中 引用 的 预定 义 的 子 程序 以 及 数据 结构 。 基 本 库 包 含 了 读 和 写 数 
据 ， 分 配 和 收回 内 存 ， 执 行 数 字 操 作 。 别 的 库 包 含 访问 数据 库 或 者 操作 终端 窗口 。 一 个 引用 未 
解决 符号 的 程序 不 在 任何 一 个 库 中 是 错误 的 而 且 不 能 被 链接 。 当 程序 使 用 了 库 例 程 ， 链 接 器 从 
库 中 提取 例 程 代码 ， 并 将 其 合并 到 程序 的 代码 段 。 这 个 新 的 例 程 反 过 来 可 能 依靠 别 的 库 例 程 ， 
所 以 链接 器 继续 读 取 别 的 库 例 程 ， 直 到 没有 外 部 引用 是 没有 解决 的 或 者 没有 哪个 程序 是 不 能 被 
找到 的 。 
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目标 文件 
| sub: 
目标 文件 2 强加 可 执行 文件 
指令 main: 和 : | main: 
al? - ,a lprinet 
jal ?33 jal sub 
Cal -Sub 链接 器 ‘printf: 


重 定位 记录 cal1l1' printf 


> i | 
| | 


print: 
. 


图 A-3-1 链接 器 搜查 一 组 目标 文件 和 程序 库 ， 寻 找 在 程序 中 使 用 的 非 局 部 函数 ， 
将 其 合并 成 一 个 可 执行 文件 ， 而 且 解 决 不 同文 件 间 的 程序 的 引用 


如 果 所 有 的 外 部 引用 被 解决 了 ， 链 接 器 接 下 来 确定 每 个 模块 将 占用 的 内 存 地 址 。 因 为 文 
件 在 汇编 上 是 独立 的 ， 汇 编 器 不 知道 一 个 模块 的 指令 或 者 数据 相对 于 别 的 模块 放 在 哪里 。 
当 链接 器 在 内 存 中 放 一 个 模块 时 ， 所 有 的 绝对 引用 必须 重 定 位 以 便 反映 其 真实 的 地 址 。 因 
为 链接 器 具有 重 定位 信息 来 指出 所 有 重 定位 引用 ， 它 能 够 高 效 地 找到 以 及 反 向 修补 这 些 
引用 。 

链接 器 产生 一 个 可 执行 的 文件 ， 这 个 文件 可 以 在 计算 机 上 运行 。 典 型 的 ， 除 了 不 包含 没有 
被 解决 的 引用 或 者 重 定位 信息 ， 这 个 文件 具有 和 目标 文件 一 样 的 格式 。 


A.4 加载 


程序 在 链接 阶段 没有 错误 就 可 以 运行 。 在 运行 之 前 ， 程 序 保存 在 像 磁 盘 这 样 的 二 级 存储 的 
一 个 文件 中 。 在 UNIX 系统 中 ， 操 作 系统 核心 将 一 个 程序 加 载 到 内 存 并 且 开 始 运行 。 为 了 启动 
一 个 程序 ， 操 作 系统 执行 以 下 步骤 ; 

1) 读 取 可 执行 文件 的 头 ， 目 的 是 确定 代码 段 和 数据 段 的 大 小 。 

2) 产生 程序 的 一 个 新 地 址 空间 。 这 个 地 址 空间 足够 大 ， 装 得 下 代码 段 和 数据 段 ， 还 有 堆 
栈 段 ( 见 A.5 节 )。 

3) 将 可 执行 文件 中 的 指令 和 数据 复制 到 一 个 新 的 地 址 空间 。 

4) 将 传递 给 程序 的 参数 复制 到 堆栈 上 。 

5) 初始 化 机 器 寄存 器 。 通 常 ， 大 部 分 寄存 器 被 清 零 ， 但 是 堆栈 寄存 器 指针 必须 被 赋值 为 
堆栈 地 址 的 初始 地 址 〈( 见 A.5 节 )。 

6) 跳 转 到 一 个 启动 程序 ， 这 个 程序 从 堆栈 中 把 程序 的 参数 复制 到 寄存 器 ， 而 且 调用 程序 
的 main 程序 。 如 果 main 程序 返回 ， 启 动 程序 退出 系统 调用 ， 终 止 程序 的 执行 。 


A. 5 内存 的 使 用 


下 面 几 节 描 述 本 书 前 面 提 到 的 MIPS 体系 结构 。 前 面 几 章 主 要 关注 硬件 ， 以 及 硬件 和 低级 
软件 的 关系 。 这 些 章节 主要 关注 汇编 语言 编程 者 如 何 使 用 MIPS 硬件 。 描 述 在 很 多 MIPS 系统 上 
的 一 组 规则 。 很 多 情况 下 ， 硬 件 不 会 影响 这 些 规 则 。 相 反 ， 为 了 使 不 同 的 人 编写 的 程序 集合 在 
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一 起 时 能 够 工作 ， 能 有 效 地 利用 MIPS 的 硬件 ， 这 些 规则 代表 了 编程 人 员 必 须 遵守 的 一 种 约定 。 
基于 MIPS 的 系统 通常 将 内 存 分 割 成 三 个 部 分 ( 见 7ffmmr。 
图 A-5-1) 。 第 一 部 分 ， 接 近 地 址 空间 的 底部 (开始 地 址 
是 400000,。) ， 是 代码 段 ， 保 存 的 是 程序 的 指令 。 
第 二 部 分 ， 在 代码 段 的 上 面 ， 称 为 数据 段 ， 它 被 进 
一 步 分 割 成 两 部 分 。 静 态 数据 (static data) (开始 地 址 是 
10000000,。) 包含 目标 代码 ， 它 的 大 小 对 于 编译 器 是 已 知 
的 ， 其 内 容 在 整个 程序 执行 期 间 有 效 。 例 如 ,在 C 语言 
中 ， 全 局 变量 通常 是 静态 分 配 的 ， 因 为 它们 在 程序 执行 (0000 
的 任何 时 候 都 可 被 引用 。 链 接 器 既 为 静态 的 对 象 在 数据 
段 分 配 地 址 ， 也 处 理 对 这 些 对 象 的 引用 。 


了 静态 数据 : 包含 数据 的 那 部 分 内 存 ， 其 大 小 为 编译 
器 所 知 ， 生 命 周期 为 整个 程序 的 运行 时 间 。 
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图 A-5-1 内 存 布局 


紧 靠 着 静态 数据 之 上 的 就 是 动态 数据 。 这 个 数据 ， 正 如 其 名 字 所 暗示 的 一 样 ， 是 在 程序 执 
行 过 程 中 分 配 的 。 在 C 程序 中 ，malloc 库 例 程 发 现 并 返回 一 个 新 的 内 存 块 。 因 为 编译 器 不 能 
预测 一 个 程序 将 需要 分 配 多 大 的 内 存 ， 操 作 系统 扩展 了 动态 内 存 数 据 区 域 来 满足 这 个 需求 。 如 
图 A-5-1 中 向 上 的 箭头 所 指示 的 ，malloc 通过 使 用 系统 调用 sbrk 扩展 了 动态 区 域 ， 调 用 这 
个 函数 会 导致 操作 系统 在 动态 数据 段 之 上 为 程序 的 虚拟 地 址 空间 加 载 更 多 的 页 ( 见 第 5 章 的 
5.7 节 )。 

第 三 部 分 ,程序 堆栈 段 (stack segment) 存在 于 虚拟 地 址 空间 的 顶部 (从 地 址 7fffffffie 开 
始 )。 和 动态 数据 相似 ， 一 个 程序 的 堆栈 段 的 最 大 尺寸 不 能 够 被 预先 知道 。 当 程序 向 堆栈 段 压 
入 变量 时 ， 操 作 系 统 会 自动 向 下 (数据 段 方 向 ) 扩展 堆栈 段 。 


”堆栈 段 : 程序 用 来 保存 过 程 调用 帧 的 那 段 内 存 。 


这 种 三 段 分 割 的 内 存 格局 不 是 唯一 的 格局 。 然 而 ， 它 具备 两 个 重要 的 特性 : 动态 可 以 扩展 
的 段 尽量 隔 得 很 远 ， 而 且 能 够 扩展 ， 以 便 将 整个 程序 的 地 址 空间 全 部 用 完 。 


久 硬件 /软件 接口 ”由 于 数据 段 的 起 始 地 址 远 远 高 于 程序 的 起 始 地 址 10000000,。， 存 取 指 令 
不 能 直接 使 用 它们 的 16 位 偏 移 域 引用 数据 对 象 ( 见 第 2 章 的 2.5 节 )。 例 如 ， 为 了 加 载 位 
于 数据 段 地 址 10010020,e 的 字 到 寄存 器 $v0 需要 两 条 指令 : 


lui $s0, 0x1001 # 0x1001 means 1001 base 16 
Tw $v0，0x0020($s0) # 0x10010000 + 0x0020 = 0x10010020 


(数字 之 前 的 0x 表示 这 个 数字 是 十 六 进 制 的 值 。 例 如 ，0x8000 是 8000i 或 者 32768.0。) 

为 了 在 每 个 存 取 指令 中 各 免 重复 lui 指令 ，MIPS 系统 通常 使 用 一 个 专用 的 寄存 器 
( $gp) 作为 全 局 指针 指向 静态 数据 段 。 这 个 寄存 器 包含 了 地 址 10008000,s， 所 以 存 取 指 
令 可 以 使 用 16 位 的 偏 移 来 访问 静态 数据 段 的 第 一 个 64KB。 拥 有 这 个 全 局 指针 ， 我 们 可 以 
将 以 上 例子 改写 为 一 条 指令 : 

1w $v0，0x8020($gp) 

当然 ， 一 个 全 局 指针 寄存 器 使 得 寻 址 10000000,s ~ 10010000,e 比 别 的 堆 地 址 定位 要 快 。 
MIPS 编译 器 通常 将 全 局 变量 存储 在 这 个 范围 ， 因 为 这 些 变量 具备 固定 的 地 址 ， 而 且 比 别 
的 全 局 数据 (例如 数组 ) 更 合适 。 
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A. 6 过程 调 用 规范 


当 程 序 中 的 过 程 被 分 别 编 译 时 ， 管 理 寄存 器 使 用 的 规范 是 必要 的 。 为 了 编译 一 个 特定 过 
程 ， 编 译 器 必须 知道 需要 哪些 寄存 器 ， 以 及 哪些 寄存 器 的 信息 需要 为 其 他 过 程 保留 。 寄 存 器 使 
用 的 规则 被 称 作 寄 存 器 使 用 (register use) 或 者 过 程 调用 规范 (procedure call econvention ) 。 顾 
名 思 义 ， 大 多 数 情况 下 ， 这 些 规 则 主要 用 于 约束 软件 ， 而 不 是 硬件 必须 遵守 的 。 然 而 ， 很 多 编 
译 器 以 及 编程 者 努力 遵循 这 些 规范 ， 因 为 违反 这 些 规则 会 导致 诡异 的 错误 。 


定 “寄存 器 使 用 : 或 者 称 为 过 程 调用 规范 。 管 理 过 程 (调用 ) 使 用 寄存 器 的 软件 协议 。 


本 节 描 述 的 调用 规范 是 gce 编译 器 所 遵循 的 一 个 规范 。MIPS 的 原始 编译 器 使 用 一 个 更 为 复 
杂 的 规范 ， 而 且 这 个 规范 会 导致 程序 执行 得 比较 快 。 

MIPS CPU 包含 32 个 通用 目的 寄存 器 ， 它 们 的 编号 是 0 ~31。 寄 存 器 $0 的 值 总 是 0。 

。 寄存 器 $at (1) 、$k0(26) 和 $kl (27) 是 预 留 给 汇编 器 和 操作 系统 的 ， 不 能 被 用 户 程 
序 或 者 编译 器 使 用 。 

。 寄存 器 $a0 ~ $a3 (4 ~7) 被 用 来 传递 初始 4 个 参数 到 例 程 (其 他 的 参数 传递 到 堆栈 
中 ) 。 寄 存 器 $v0 以 及 $v1 (2，3) 被 用 来 返回 来 自 函数 的 值 。 

e 寄存 器 $t0 ~ $t9 (8 ~15,24, 25) 是 调用 者 保存 的 寄存 器 (caller- saved register)， 
被 用 来 保存 临时 变量 ， 这 些 值 在 调用 的 时 候 不 需要 保存 ( 见 第 2 章 2.8 节 )。 


全 “调用 者 保存 的 寄存 器 : 调用 程序 保存 的 寄存 器 。 


。 寄存 器 $s0 ~ $s7(16 ~23 ) 被 称 为 被 调用 者 保存 的 寄存 器 ( callee- saved register) ,保存 
长 期 存活 值 ,这 些 值 应 当 在 程序 调用 时 保存 。 


全” 被 调用 者 保存 的 寄存 器 :被 调用 者 程序 保存 的 寄存 器 。 


。 寄存 器 $gp (28) 是 一 个 全 局 指针 ， 指 向 64K 的 静态 数据 内 存 块 。 
。 寄存 器 $sp (29) 是 堆栈 指针 ， 指 向 堆栈 的 最 后 地 址 。 寄 存 器 $fp (30) 是 数据 帧 指针 。 
jal 指令 写 寄存 器 $ra(31) ， 是 过 程 调用 的 返回 地 址 。 这 两 个 寄存 器 将 在 下 一 节 说 明 。 
两 个 字母 的 缩写 以 及 这 些 寄 存 器 的 名 字 一 一 如 $sp 代表 的 是 栈 指针 一 一 反映 了 寄存 器 在 
过 程 调 用 规范 中 所 起 的 作用 。 在 描述 这 样 一 个 规范 时 ， 我 们 将 使 用 寄存 器 的 名 字 ， 而 不 是 寄存 
器 的 编号 。 图 A-6-1 罗列 了 这 些 寄存 器 及 其 用 途 。 


A. 6.1 过 程 调用 


本 节 描 述 一 个 程序 (调用 者 ，the caller) 调用 另 一 段 程序 (被 调用 者 ，the callee) 的 步骤 。 程 
序 员 使 用 像 C 或 者 Pascal 这 样 的 高 级 语言 编程 ， 从 来 都 看 不 到 一 个 程序 调用 另 一 个 程序 的 细节 。 因 
为 编译 器 负责 低级 的 书签 工作 。 然 而 ， 汇 编 语 言 程序 员 必 须 明确 地 实现 每 个 程序 调用 和 返回 。 

很 多 与 调用 相关 的 书签 操作 围绕 着 一 个 内 存 块 ， 这 个 内 存 块 被 称 为 过 程 调用 帧 (procedure 
call frame) 。 这 段 内 存 被 用 作 以 下 目的 : 


2 过程 调 用 帧 : 用 来 保存 被 调用 过 程 的 参数 ， 保 存 可 能 会 被 过 程 修改 的 寄存 器 的 值 ， 但 是 这 
些 寄 存 器 的 值 不 会 被 调用 者 所 修改 ， 并 为 被 调用 程序 的 局 部 变量 提供 空间 。 


。 保持 作为 参数 传递 给 过 程 的 数值 。 
。 保存 一 个 过 程 可 能 会 修改 的 寄存 器 ， 但 是 过 程 的 调用 者 却 不 希望 这 些 寄 存 器 的 值 被 修改 。 
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寄存 器 名 黎 编号 器 纺 呈 全 RAW | 
$zero 0 恒 为 0 $s0 16 | 保存 临时 值 (过程 调用 预 留 ) 
$at 1 为 汇编 器 保留 $s1 17 | 保存 临时 值 (过程 调用 预 留 ) 
$v0 2 表达 式 求 值 以 及 函数 的 结果 $s2 18 | 保存 临时 值 (过 程 调用 预 留 ) 
$vl 3 表达 式 求 值 以 及 函数 的 结果 $s3 19 | 保存 临时 值 (过 程 调用 预 留 ) 
$a0 4 参数 1 ] $s4 20 | 保存 临时 值 (过 程 调用 预 留 ) 
$al | 5 参数 2 $s5 21 | 保存 临时 值 (过 程 调用 预 留 ) 
$a2 6 | 参数 3 $s6 22 | 保存 临时 值 (过 程 调用 预 留 ) 
$a3 7 参数 4 $s7 23 | 保存 临时 值 (过 程 调 用 预 留 ) 
$tO 8 临时 (不 为 过 程 调用 预 留 ) $t8 24 | 临时 (不 为 过 程 调用 预 留 ) 
大 EL 9 临时 (不 为 过 程 调用 预 留 ) $t9 25 | 临时 (不 为 过 程 调用 预 留 ) 
$t2 10 临时 (不 为 过 程 调用 预 留 ) | $k0 26 | 为 0S 内 核 保留 
$t3 11 临时 (不 为 过 程 调用 预 留 ) $k1 27 | 为 0S 内 核 保留 
$t4 12 临时 (不 为 过 程 调用 预 留 ) $gp 28 | 全 局 区 域 的 指针 
$t5 13 临时 (不 为 过 程 调用 预 留 ) $sp 29 | 堆栈 指针 | 
$t6 14 临时 (不 为 过 程 调用 预 留 ) $fp 30 | 帧 指针 
$t7 15 临时 〈 不 为 过 程 调用 预 留 ) | $ra 31 | 返回 地 址 (函数 调用 使 用 ) 

图 A-6-1 MIPS 寄存 器 和 使 用 规则 


。 为 过 程 的 局 部 变量 提供 空间 。 


在 大 部 分 编程 语言 中 ， 过 程 调用 和 返回 遵循 一 个 严格 的 后 进 先 出 (LIFO) 的 顺序 ， 所 以 
在 一 个 栈 中 内 存 能 被 分 配 以 及 被 再 次 分 配 ， 这 就 是 为 什么 这 些 内 存 块 有 时 称 作 堆栈 帧 。 


图 A-6-2 展示 了 一 个 典型 的 堆栈 帧 。 这 个 帧 由 以 
下 部 分 组 成 : 帧 指针 ($fp)， 这 个 指针 指向 这 个 帧 的 
第 一 个 字 ; 堆栈 指针 ($sp)， 指 向 帧 的 最 后 一 个 字 。 
栈 从 内 存 的 高 地 址 开始 向 下 增长 ， 所 以 帧 的 指针 指向 
堆栈 指针 的 上 面 。 一 个 过 程 的 执行 使 用 帧 指针 来 快速 
地 访问 堆栈 帧 中 的 值 。 例 如 ， 一 个 堆栈 帧 中 的 参数 可 
以 使 用 以 下 命令 来 加 载 到 寄存 器 $v0: 

lIw $v0，0($fp) 

堆栈 帧 可 以 有 好 几 种 不 同 的 构建 方式 ; 然而 ， 调 
用 者 和 被 调用 者 必须 遵从 一 系列 步骤 。 下 面 来 描述 在 
大 部 分 MIPS 机 器 上 使 用 的 调用 规范 步 又。 这 个 规范 在 
过 程 调用 中 的 三 个 阶段 出 现 : 在 调用 者 激活 被 调用 者 
之 前 ， 被 调用 者 开始 执行 ， 并 且 被 调用 者 返回 调用 者 
之 前 。 在 第 一 种 情况 下 ， 调 用 者 将 过 程 调用 参数 放 在 
指定 的 地 方 ， 激 活 被 调用 者 做 如 下 事情 : 

1) 传递 参数 。 根 据 规范 ， 第 一 批 的 4 个 参数 被 传 
递 到 寄存 器 $a0 ~ $a3。 任何 剩 余 的 参数 将 被 压 和信 堆 
栈 中 ， 而 且 出 现在 被 调用 过 程 的 堆栈 帧 的 开始 。 

2) 保存 调用 者 寄存 器 。 被 调用 过 程 可 以 直接 使 用 
这 些 寄存 器 ($a0 ~ $a3 以 及 $t0 ~ $t9) ， 而 不 需要 


贞 信 二 = 关 


hap 一 








堆栈 生长 方向 


低 端 存储 器 地 址 


图 A-6-2 堆栈 帧 的 示意 图 。 帧 指针 


($fp) 指向 当前 执行 过 程 
的 堆栈 帧 的 第 一 个 字 。 堆 
栈 指针 〈$sp) 指向 该 帧 
的 最 后 一 个 字 。 最 前 面 4 
个 参数 被 传递 到 寄存 器 中 ， 
所 以 第 五 个 参数 成 为 栈 中 
第 一 个 被 保存 的 参数 


首先 保存 这 些 寄存 器 的 值 。 如 果 调 用 者 在 调用 之 后 还 想 使 用 这 些 寄 存 器 ， 那 么 它 必须 在 调用 之 
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前 保存 寄存 器 的 值 。 
3) 执行 一 个 jal 指令 ( 见 第 2 章 的 2.8 节 )， 这 个 指令 跳 转 到 被 调用 者 的 第 一 个 指令 并 A.24 
将 返回 地 址 保存 到 寄存 器 $ra 中 。 A-25 
在 一 个 被 调用 的 例 程 开始 运行 之 前 ， 必 须 经 过 以 下 几 步 来 建立 它 的 堆栈 帧 : 
1) 为 帧 分 配 内 存 空 间 ， 通 过 栈 指针 来 减 小 帧 的 大 小 。 
2) 在 帧 中 保存 被 调用 者 的 寄存 器 。 调 用 者 必须 在 修改 这 些 寄存 器 之 前 保存 这 些 寄存 器 的 值 
( $s0 ~ $s7、$fp 和 $ra) ， 由 于 调用 者 期 望 发 现 这 些 寄存 器 在 调用 之 后 保持 不 变 。 寄 存 器 
$fp 被 每 个 过 程 保存 ， 这 个 指针 为 过 程 分 配 一 个 新 的 堆栈 帧 。 然 而 如 果 被 调用 者 调用 别 的 程序 ， 
寄存 器 $ra 仅仅 需要 被 调用 者 保存 。 别 的 被 调用 者 保存 的 寄存 器 被 使 用 的 话 ， 也 必须 被 保存 。 
3) 设置 栈 帧 指针 ， 其 值 为 栈 帧 大 小 减 去 4 加 上 $sp， 保 存在 寄存 器 $fp 中 。 


妤 | 硬件 /软件 接口 ”MIPS 寄存 器 使 用 规范 提供 被 调用 者 以 及 调用 者 保存 的 寄存 器 ， 因 为 这 两 
种 类 型 的 寄存 器 在 不 同 的 环境 中 各 具 优势 。 被 调用 者 保存 的 寄存 器 最 好 用 来 保存 生存 期 长 
的 值 ， 例 如 来 自用 户 程序 的 变量 。 如 果 被 调用 者 期 望 使 用 这 个 寄存 器 ， 这 个 寄存 器 就 仅仅 
在 过 程 调用 中 被 保存 。 另 一 方面 ， 调 用 者 保存 的 寄存 器 最 好 被 用 来 保存 短期 存在 的 量 ， 这 
些 值 在 过 程 调用 中 不 长 期 存在 ， 例 如 地 址 计算 中 的 立即 值 。 在 一 个 过 程 调用 中 ， 被 调用 者 
也 可 以 使 用 那些 保存 临时 值 的 寄存 器 。 


最 终 ， 通 过 执行 以 下 几 步 ， 被 调用 者 返回 到 调用 者 : 

1) 被 调用 者 是 一 个 具备 返回 值 的 函数 ， 就 将 返回 值 放 到 寄存 器 $v0。 

2) 恢复 所 有 被 调用 者 保存 的 寄存 器 ， 这 些 寄存 器 保存 前 一 个 过 程 的 人 口 。 
3) 向 $sp 加 上 帧 大 小 ， 将 帧 从 栈 中 弹出 。 

4) 跳 转 到 寄存 器 $ra 中 的 地 址 处 。 


团 ] 精 解 ”编程 语言 不 允许 递归 过 程 (recursive procedure) 一 一 一 个 过 程 通过 一 串 调用 ， 可 以 间 
接 或 者 直接 地 调用 自己 一 一 不 需要 在 堆栈 中 分 配 帧 。 在 一 个 非 递归 的 语言 中 ， 每 个 过 程 的 由 
可 能 被 静态 分 配 ， 因 为 在 同一 时 间 ， 仅 仅 允 许 一 个 过 程 处 于 活动 状态 。 旧 版 本 的 Fortran 禁 
止 递归 ， 在 一 些 比较 老 的 机 器 中 静态 分 配 帧 产生 代码 比较 快 。 然 而 ， 在 类 似 MIPS 这 样 的 存 
取 体系 结构 中 ， 扒 栈 帧 的 速度 也 可 能 很 快 。 因 为 一 个 扒 栈 指针 寄存 器 直接 指向 活动 堆栈 帧 ， 
这 允许 一 个 存 取 指令 访问 这 个 帧 中 的 值 。 另 外 ， 递 归 是 一 种 很 有 价值 的 编程 技巧 。 





Q 递归 过 程 : 就 是 指 某 个 过 程 能 通过 调用 链 直 接 或 间接 地 调用 自己 。 A-26 


A. 6. 2 过程 调用 举例 
作为 一 个 例子 ， 考 虑 以 下 C 程序 : 


main () 


{ 
printf (“The factorial of 10 is %d\n”, fact (10)); 


} 
int fact (int n) 
{ 


if (n < 1) 
return (1); 
else 
return (n * fact (n - 1)); 
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这 个 函数 计算 而 且 打 印 10!1 (10 的 阶乘 ，10! =10 x9 x… x1)。fact 是 一 个 递归 例 程 ， 
计算 n1， 通 过 对 乘 以 (az -1)1!。 这 段 代 码 对 应 的 汇编 代码 说 明 程序 如 何 管理 堆栈 帧 。 

在 人 口上 ， 例 程 main 创建 一 个 堆栈 帧 ， 而 且 保存 被 调用 者 将 会 修改 的 两 个 寄存 器 : $fp 
和 $ra。 一 个 由 的 大 小 比 两 个 寄存 器 大 ， 因 为 调用 规范 所 需要 的 一 个 堆栈 帧 的 最 小 大 小 是 24 
字 节 。 最 小 的 帧 可 以 容纳 4 个 寄存 器 参数 ( $a0 ~ $a3) 以 及 $ra 的 返回 地 址 ， 再 加 上 一 个 
双 字 边界 〈 一 共 24 字 节 )。 由 于 main 函数 也 需要 保存 $fp， 它 的 堆栈 帧 必须 是 两 个 字 大 小 
( 记 住 : 堆栈 指针 保持 双 字 对 齐 ) 。 


.text 
.globl main 
main: 
subu $sp,$sp,32 # Stack frame is 32 bytes long 
Sw $ra,20($sp) # Save return address 


SW $fp,16($sp) # Save old frame pointer 
addiu $fp,$sp,28 # Set up frame pointer 


main 程序 然后 调用 阶乘 例 程 而 且 将 它 的 唯一 参数 10 传 给 阶乘 函数 。 在 fact 函数 返回 后 ， 
main 调用 printf， 而 且 给 printf 传递 一 个 格式 化 字符 串 ， 以 及 从 fact 返回 的 结果 两 个 参数 。 


1i $a0,10 # Put argument (10) in $a0 
jal fact # Call factorial function 
1a $a0 ,$LC # Put format string in $a0 
move $al ,$v0 # Move fact result to $al 
jal printf # Call the print function 
最 终 ， 在 打印 出 阶乘 结果 后 ，main 返回 。 但 是 首先 ， 它 必须 恢复 以 下 这 些 寄存 器 的 值 ， 
将 它们 从 栈 中 弹出 : 
Iw $ra,20($sp) # Restore return address 
1w $fp,16($sp) # Restore frame pointer 
addiu $5p $sp i32 # Pop stack frame 
站 下 $ra # Return to caller 
.rdata 
$LC: 


.ascii “The factorial of 10 is %d\n\000” 
阶乘 函数 的 结构 和 main 函数 很 相似 。 首 先 ， 阶 乘 函数 创建 一 个 堆栈 帧 ， 把 它 可 能 会 使 用 
的 被 调用 者 寄存 器 保存 起 来 。 另 外 ， 还 保存 $ra 以 及 $fp，fact 函数 也 保存 它 的 参数 
($a0 ) ， 这 个 参数 在 递归 调用 的 时 候 会 被 使 用 : 


.text 
facts 
subu $sp,$sp,32 # Stack frame is 32 bytes long 
Sw $ra,20($sp) # Save return address 
SW $fp,16($sp) 站 Save frame pointer 
addiu $fp,$sp,28 # Set up frame pointer 
Sw $a0,0($fp) # Save argument (n) 


fact 例 程 的 核心 执行 C 程序 计算 。 这 个 函数 测试 它 的 参数 是 否 比 0 大。 如果 不 是 ， 例 程 
返回 值 1。 如 果 参 数 比 0 大 ， 例 程 递归 地 调用 它 自己 , 计算 fact(n -1) 而 且 乘 以 n: 


1w $v0,0($fp) # Load n 

bgtz $v0 ,$L2 # Branch if n >0 

1i $v0 ,1 # Return 1 

jr $L1 # Jump to code to return 
$L2 : 

Iw $v1,0($fp) # Load n 

subu $v0 ,$v1l ,1 # Compute n - 1 


move $a0, $vO # Move value to $a0 
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jal fact # Call factorial function 
1w $v1,0($fp) 共 Load n 
mul $v0,$v0,$v1  # Compute fact(n-1) * n 


最 后 ， 阶 乘 函数 恢复 被 调用 者 保存 的 那些 寄存 器 而 且 返 回 寄 存 器 $v0 中 的 值 : 


$L1: # Result is in $v0 
Iw $ra, 20($sp) # Restore $ra 
1w $fp, 16($sp) # Restore $fp 
addiu $sp, $sp, 32 # Pop stack 
jr $ra # Return to caller 


著 | 例题 递归 过 程 中 的 栈 


图 A-6-3 展示 了 fact(7) 的 调用 栈 。main 最 先 运 行 ， 所 以 它 的 帧 在 栈 的 最 深 处 。main 


调用 了 fact(10) ， 它 们 的 栈 帧 挨 着 。 每 个 调用 ， 递 归 
调用 fact 函数 来 计算 更 低 一 级 的 阶乘 。 栈 帧 和 这 些 函 
数 的 调用 按照 LIFO 的 顺序 并 行 着 。 当 fact(10 ) 返 回 
的 时 候 ， 栈 看 起 来 是 什么 样子 ? 

团 | 答案 


堆栈 
main 


加 精 解 MIPS 编译 器 和 gcc 编译 器 之 间 的 差异 是 ， 
MIPS 编译 器 通常 不 需要 帧 指针 ， 所 以 这 个 寄存 器 
可 作为 另 一 个 被 调用 者 保存 寄存 器 $s8 使 用 。 这 种 
改变 在 过 程 调用 和 返回 序列 中 节省 了 一 对 指令 。 然 而 ， 


堆栈 生长 方向 





口 


堆栈 

老 的 $fp | main 
老 的 $a0 

老 的 $ra | fact (10) 
老 的 下 印 

老 的 $a0 

老 的 $ra |fact (9) 
老 的 中 印 

时 局 
老 的 $ra |fact (8) 
老 的 $$ 全 

老 的 $a0 

老 的 


ra | fact (7) 
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图 A-6-3 调用 fact(7) 过 程 中 的 栈 由 


这 使 得 代码 产生 变 得 复杂 ， 因 为 一 个 过 程 必须 使 用 $sp 来 访问 栈 帧 ， 如 果 有 数值 被 压 到 栈 中 ， 它 


的 值 可 以 在 一 个 过 程 执行 中 变化 。 


A. 6.3 另外 一 个 过 程 调用 的 例子 


作为 男 一 个 例子 ， 考虑 下 面 的 程序 ， 它 计算 tak 函数 ， 这 是 一 个 被 广泛 使 用 的 基准 测试 
程序 ， 由 Ikuo Takeuchi 创建 。 这 个 函数 不 计算 任何 有 用 的 东西 ， 但 这 个 函数 是 深度 的 递归 程 


序 ， 用 它 可 以 说 明 MIPS 调用 的 规范 。 
int tak (int x, int y, int z) 
{ 
if (y < x) 
return 1+ tak (tak (x - 1, y, 2Z), 


tak (yy = 1 Zs Xs 
tak (z - 1, x, y)); 
else 
return 2; 


} 
int main () 


tak(18, 12, 6); 


这 段 程序 的 汇编 代码 将 在 下 面 展 示 。tak 函数 首先 保存 它 的 返回 地 址 到 堆栈 帧 中 ， 而 且 将 
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它 的 参数 保存 在 被 调用 保存 的 寄存 器 中 ， 因 为 例 程 或 许 会 调用 那些 需要 使 用 寄存 器 $a0 ~ $a2 
以 及 $ra 的 例 程 。 函 数 使 用 被 调用 者 保存 的 寄存 器 ， 由 于 它们 在 函数 的 整个 生命 期 中 保持 有 
效 ， 这 期 间 包 含 几 个 可 能 会 修改 寄存 器 值 的 函数 调用 。 


,七 EX 七 

.gl1obl tak 
tak: 

subu $sp, $sp, 40 

SW $ra, 32($sp) 

SW $s0, 16($sp) 闫 痰 

move $s0, $a0 

SW $sl1, 20($sp) # y 

move $sl1, $al 

Sw $s2, 24($sp) # z 

move $s2, $a2 

sy $s3, 28($sp) # temporary 
通过 测试 ， 如 果 y <x， 例 程 开始 执行 。 否 则 ， 分 支 转 到 标签 L1 处 ， 如 下 所 示 。 
bge $s1, $s0, L1 # if (y < x) 
如 果 y <x， 那 它 就 执行 例 程 的 主体 ， 主 体 包含 了 4 个 递归 的 调用 。 第 一 个 调用 使 用 几乎 

和 它 的 母体 相同 的 参数 : 

addiu $a0, $s0, -1 
move $al, $sl 
move $a2, $s2 
jal tak # tak (x = 1, YY: z) 
move $s3, $v0 


注意 到 ， 第 一 个 递归 调用 的 结果 被 保存 到 寄存 器 $s3 ， 这 样 便 于 不 久 后 使 用 。 
函数 现在 为 第 二 个 递归 调用 做 准备 。 
addiu $a0; dsl, =1 


move $al, $s2 
move $a2, $s0 
jal tak FF tak (yy - lL, ZE, XY 


在 下 面 的 指令 中 ,来 自 递 归 调 用 的 结果 被 保存 到 寄存 器 $s0。 但 是 首先 ， 也 是 最 后 一 次 ， 
et ee 其 中 保存 第 一 个 参数 的 值 。 


addiu $0 $52 


move $al, $s0 
move $a2, $sl 
move $s0, $vO 
jal tak # tak (z - 1 x, y) 


在 三 个 内 部 递归 调用 之 后 ,我们 准备 最 后 的 递归 调用 。 调 用 之 后 ， 函 数 的 结果 保存 到 $v0 
中 ， 控 制 函 数 流程 的 跳 转 。 


move $a0, $s3 
move $al, $s0 
move $a2, $v0 
jal 七 ak # tak 《EC 
addiu $v0O, $v0O, 1 
| [2 
标签 L1 处 的 代码 是 一 个 让 then-else 语句 序列 。 它 仅仅 将 参数 z 的 值 传递 到 返回 寄存 器 而 
落 和 人 到 函数 格局 中 。 
[上 
move $vO0O, $s2 


以 下 的 代码 是 函数 末尾 ， 它 恢复 被 保存 的 寄存 器 并 将 函数 值 返回 给 它 的 调用 者 。 
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main 函数 使 用 最 初 的 参数 来 调用 tak 函数 ， 然 后 得 到 计算 结果 result (7) 而 且 使 用 


L2: 

1w $ra, 32($sp) 
Iw $s0, 16($sp) 
1w $sl, 20($sp) 
]w $s2, 24($sp) 
1w $s3, 28($sp) 
addiu $sp, $sp, 40 
证 $ra 

SPIM 系统 调用 来 打印 整数 的 值 。 
.globl] main 

main: 
subu $sp, $sp, 24 
SW $ra, 16($sp) 
1i $a0, 18 
Di $al, 12 
1 $a2, 6 
jal. tak 
move $a0, $v0 
Ta $v0, 1 
syscall 
lw $ra, 16($sp) 
addiu $sp, $sp, 24 
jr $ra 
aa 
A.7 异常 和 中 断 


# tak(18, 12, 6) 


# print_int syscall 


第 4 章 的 4.9 节 描述 了 MIPS 异常 机 制 ， 包 括 指令 执行 中 发 出 错误 导致 的 异常 以 及 LO 设 
备 引 起 的 外 部 中 断 。 本 节 描 述 异 常 以 及 中 断 处 理 (interrupt handling) 的 更 多 细节 。? 在 MIPS 
处 理 器 中 ，CPU 中 一 个 被 称 为 coprocessor 0 的 部 分 记录 软件 处 理 异 常 和 中 断 所 需要 的 信息 。 
MIPS 仿真 器 SPIM 没有 实现 coprocessor 0 的 寄存 器 ， 因 为 在 一 个 仿真 器 中 ， 不 需要 很 多 寄存 器 ， 
或 者 寄存 器 不 是 内 存 系统 的 一 个 部 分 ，SPIM 就 没有 实现 它 。 然 而 ，SPIM 确实 提供 了 下 列 cop- 


rocessor 0 的 寄存 器 : 


”中 断 处 理 ; 一 段 代码 ， 作 为 异常 或 者 中 断 的 执行 结果 。 


霖 存 器 名 各 ED 


BadVAddr 


Count 


一 个 会 发 生 内 存 引用 冲突 的 内 存 地 址 
计时 器 
一 个 用 来 和 计时 器 进行 比较 ， 当 它 的 值 和 计时 器 匹配 时 ， 会 发 生 中 断 


Sa 下 者 到 以 及 使 能 人! 
Cause 异常 类 型 以 及 中 断 挂 起 位 


Config 


引起 异常 的 指令 地 址 
机 器 的 配置 


加 本 节 讨论 MIPS-32 体系 结构 中 的 异常 ， 这 些 异常 是 SPIM 的 7.0 及 以 后 的 版 本 所 实现 的 。SPIM 的 早期 版 本 实 
现 了 MIPS-1 体系 结构 ,但 是 其 中 对 异常 的 处 理 有 些 不 同 。 将 这 些 不 同 版 本 的 程序 转变 成 在 MIPS-32 上 运行 
不 是 一 件 困难 的 事情 ， 因 为 只 有 状态 和 原因 寄存 器 的 域 需要 改变 ， 使 用 rfe 指令 替换 eret 指令 。 
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LD 








这 7 个 寄存 器 是 coprocessor 0 处 理 器 的 寄存 器 组 的 一 部 分 。 它 们 通过 mfc0 以 及 mtc0 指令 
来 访问 。 异 常 之 后 ， 寄 存 器 EPC 包含 了 在 执行 时 发 生 异 常 的 那 条 指令 的 地 址 。 如 果 蜡 常 是 外 
部 中 断 引 起 的 ， 那 么 指令 将 不 需要 重新 开始 执行 。 除 了 导致 问题 的 指令 处 于 分 支 或 跳 转 指令 的 
延迟 覃 中 之 外 ， 所 有 其 他 的 异常 均 由 执行 EPC 处 的 指令 引起 。 在 那 种 情况 下 ，EPC 指向 分 支 
或 者 跳 转 指令 而 且 原 因 寄存 器 中 的 BD 位 被 设置 。 当 这 些 位 设置 好 后 ， 异 常 处 理 函 数 必须 查看 
引起 异常 的 EPC +4。 然 而 ， 在 别 的 情况 下 ， 异常 处 理 函 数 通 过 返回 到 指令 的 EPC 地 址 处 恢复 
被 中 断 的 程序 。 > 

如 果 指 令 所 引起 的 异常 导致 一 个 内 存 访问 ， 寄 存 器 BadVAddr 包含 被 引用 的 内 存 地 址 的 地 址 。 

Count 寄存 器 是 一 个 计数 器 ， 当 SPIM 运行 时 ， 它 按照 一 定 的 频率 递增 (默认 , 每 10 毫秒 
一 次 ) 。 当 Count 寄存 器 中 的 值 和 比较 寄存 器 中 的 值 匹配 时 ， 处 于 5 级 的 硬件 中 断 就 会 发 生 。 

图 A-7-1 展示 了 MIPS 仿真 器 SPIM 实现 的 状态 寄存 器 域 。interrupt mask 域 为 6 个 硬件 
包含 了 6 个 位 和 2 个 软件 中 断层 次 。 如 果 掩 码 位 的 值 是 1， 就 是 允许 处 理 器 这 个 级 别 上 的 中 断 ; 
如 果 掩 码 位 的 值 是 0， 就 是 不 允许 处 理 器 这 个 级 别 上 的 中 断 。 当 中 断 到 达 时 ， 中 断 在 其 原因 寄 
存 妖 中 设置 中 断 挂 起 位 ， 即 使 掩 码 位 是 无 效 的 。 当 一 个 中 断 被 挂 起 时 ， 当 随后 其 掩 人 码 位 被 允许 
时 ， 它 会 中 断 处 理 器 。 





图 A-7-1 状态 寄存 器 


当 处 理 器 运行 在 核心 模式 ， 用 户 模式 位 是 0; 如 果 用 户 模式 位 是 1， 则 说 明 处 理 器 处 于 用 
户 态 。 对 于 SPIM， 这 一 位 固定 是 1， 因 为 SPIM 处 理 器 没有 实现 核心 模式 。 异 常 级 别 位 通常 是 
0， 但 是 当 异 常 发 生 时 就 被 设置 成 1。 当 这 一 位 是 1 时 ， 中 断 被 禁止 ， 而 且 如 果 另 一 个 异常 发 
生 ，EPC 也 不 会 被 更 新 。 这 一 位 阻止 一 个 异常 处 理 被 别 的 中 断 或 者 异常 打 断 ， 但 是 它 应 当 在 异 
常 处 理 结束 时 可 以 复位 。 如 果 interrupt enable 位 是 1， 中 断 就 被 允许 。 如 果 这 一 位 是 0， 
它们 就 被 禁止 。 

图 A-7-2 展示 了 SPIM 中 的 原因 寄存 器 字段 的 子 集 。 如 果 最 后 一 个 异常 发 生 时 ， 一 个 正在 
执行 的 指令 处 于 分 支 延 迟 柳 中 ， 分 支 延 迟 位 则 为 1。 当 一 个 中 断 处 于 给 定 的 硬件 或 者 软件 层 
时 ， 中 断 挂 起 位 变 成 1。 异 常 代码 寄存 器 通过 以 下 代码 描述 了 一 个 异常 的 原因 : 









































0 Int 中 断 (硬件 ) 

4 | AdEL 地 址 错误 异常 ( 加载 或 者 取 指 令 ) 
5 AdES 地 址 错误 异常 (存储) 

6 IBE 取 指 令 的 总 线 错误 

7 DBE 加 载 数据 或 者 存储 数据 的 总 线 错 误 
8 Sys 系统 调用 异常 

9 Bp 断 点 异常 

10 | RI 保留 指令 异常 

11 CpU 没有 实现 的 协 处 理 费 

12 Ov 算术 洲 出 异常 

13 Tr 陷阱 

15 | FPE | 浮 点 
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图 A-7-2 原因 寄存 器 


异常 和 中 断 导 臻 MIPS 处 理 器 跳 转 到 一 段 代码 ， 地 址 是 80000180,。 (在 核心 态 ， 而 不 是 在 
用 户 的 地 址 空间 ) ， 被 称 作 异常 处 理 代 码 。 这 个 代码 检查 异常 的 原因 ， 而 且 跳 转 到 操作 系统 的 
一 个 合适 的 点 。 操 作 系 统 对 一 个 异常 会 做 出 以 下 的 响应 : 结束 一 个 引起 异常 的 进程 或 者 执行 一 
些 动作 。 进 程 所 引起 的 错误 ， 例 如 执行 一 个 没有 被 实现 的 指令 ， 就 会 被 操作 系统 终止 。 另 一 方 
面 ， 别 的 异常 ， 例 如 送 给 操作 系统 的 来 自 进程 的 缺 页 错误 就 是 要 执行 一 个 服务 ， 即 从 磁盘 取 回 
一 个 页 。 操 作 系 统 处 理 这 些 请 求 ， 然 后 恢复 这 个 发 出 请 求 的 进程 。 最 后 一 种 类 型 的 异常 是 外 部 
设备 发 出 的 中 断 。 这 些 通常 会 导致 操作 系统 将 数据 搬运 到 IO， 或 者 从 VO 把 数据 搬运 回来 ， 
然后 恢复 被 中 断 的 进程 。 

下 面 例子 中 的 代码 是 一 个 简单 异常 处 理 程序 ， 它 启动 一 个 为 每 个 异常 打印 消息 的 程序 (但 
不 是 中 断 ) 。 这 个 代码 与 SPIM 仿真 器 使 用 的 异常 处 理 (exceptions. s) 相似 。 


团 ] 例题 , 异常 处 理 

异常 处 理 程序 首先 保存 寄存 器 $at ， 这 个 符号 在 处 理 程序 代码 的 伪 代 码 中 被 使 用 ， 然 后 保 
存 $a0 和 $al， 这 两 个 值 之 后 将 被 用 来 传递 参数 。 异 常 处 理 程序 不 能 在 堆栈 中 保存 这 些 寄存 
器 的 旧 值 ， 作 为 一 个 一 般 的 程序 ， 因 为 异常 产生 的 原因 可 能 是 一 个 内 存 引用 在 堆栈 指针 中 使 用 
了 一 个 坏 的 值 (如 0) 。 相 反 ， 蜡 常 处 理 程序 在 一 个 异常 处 理 寄存 器 ($k1， 因 为 不 使 用 $at， 
它 不 能 访问 内 存 ) 以 及 两 个 内 存 地 址 (save0 和 savel) 中 保存 这 些 寄存 器 的 值 。 如 果 异 常 
处 理 程序 本 身 可 以 被 中 断 ， 两 个 地 址 可 能 不 充分 ， 因 为 第 二 个 异常 可 能 会 改写 这 些 第 一 个 异常 
保存 的 值 。 然 而 ， 在 允许 中 断 之 前 ， 这 个 简单 的 异常 处 理 程序 结束 运行 ， 所 以 这 些 问题 不 会 
出 现 。 

.ktext 0x80000180 

mov $kl, $at # Save $at register 

sw $a0, save0 ## Handler is not re-entrant and can'’'t use 


Sw $al, savel # stack to save $a0, $al 
# Don’t need to save $k0/$k1 


异常 处 理 程序 然后 将 原因 寄存 器 和 EPC 寄存 器 保存 到 CPU 的 寄存 器 中 。 原 因 寄 存 器 和 
EPC 寄存 器 不 是 CPU 寄存 器 组 的 一 个 部 分 。 相 反 ， 它 们 是 协 处 理 器 0 的 寄存 器 ， 协 处 理 器 是 
CPU 处 理 异常 的 一 个 部 分 。 指 令 mfc0 $k0,， $13 将 协 处 理 器 0 的 寄存 器 13 (原因 寄存 器 ) 保 
存 到 CPU 的 寄存 器 $k0。 注 意 到 异常 处 理 不 需要 保存 这 些 寄存 器 $k0 和 $k1， 因 为 用 户 程 序 
不 被 认为 会 使 用 这 些 寄 存 器 。 异 常 处 理 程序 使 用 来 自 原因 寄存 器 的 值 来 测试 异常 是 否 被 一 个 中 
断 所 引起 (参见 前 面 的 表 ) 。 如 果 是 这 样 ， 则 异常 就 会 被 忽略 。 如 果 异 常 不 是 中 断 ， 程 序 就 会 
调用 print_excp 来 打印 一 条 信息 。 


mfc0 $k0, $13 # Move Cause into $k0 

Sr] $a0，$k0，2 # Extract ExcCode field 

andi $a0, $a0, Oxf 

bgtz $a0, done # Branch if ExcCode is Int (0) 
mov $a0, $k0 # Move Cause into $a0 

mfco $al, $14 # Move EPC into $al 


jal print_excp # Print exception error message 
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在 返回 之 前 ,异常 处 理 程序 清除 原因 寄存 右 ; 重 设 状态 寄存 器 ， 目 的 是 为 了 使 得 中 断 允 
许 。 而 且 清 除 EXL 位 ， 这 使 得 后 续 的 异常 来 修改 EPC 寄存 器 ; 而 且 恢 复 寄存 器 $a0 、$al 和 
$at。 然 后 执行 eret 指令 (异常 返回 ) ， 这 个 指令 返回 EPC 所 指向 的 指令 。 这 个 异常 处 理 程 
序 返 回 到 引起 异常 的 指令 的 后 面 的 那 条 指令 。 所 以 不 会 重新 执行 那 条 错误 的 指令 ， 而 且 不 会 再 
次 引起 异常 。 


done: mfc0 $kO, $14 # Bump EPC 
addiu $kO, $k0O, 4 # Do not re-execute 
# faulting instruction 


mtc0 $kO, $14 # EPC 
mtc0 $0, $13 # Clear Cause register 
mfc0 $k0O, $12 # Fix Status register 
andi $k0O, Oxfffd # Clear EXL bit 
ori $kO, Oxl # Enable interrupts 
mtc0 $kO, $12 
1w $a0, save0 # Restore registers 
Iw $al, savel 
mov $at, $kl 
eret # Return to EPC 
.kdata 

Save0: .word 0 

Savel: .Word 0 


引 精 解 ”在 一 个 实际 的 MIPS 处 理 器 中 ， 从 异常 处 理 程序 返回 的 过 程 相 当 复杂 。 异 常 处 理 程 
序 不 能 经 常 跳 转 到 EPC 的 下 一 条 指令 。 例 如 ， 如 果 引 起 异常 的 指令 处 于 分 支 指令 的 延迟 
权 中 〈 见 第 4 章 ) ， 下 一 条 被 执行 的 指令 可 能 就 不 是 内 存 中 的 下 一 条 指令 。 


A.8 输入 和 输出 


SPIM 仿真 一 个 IO 设备 : 一 个 内 存 映 射 的 控制 台 ， 在 这 个 控制 台中 可 以 读 和 写字 符 。 当 
一 个 程序 正在 运行 时 ，SPIM 将 其 终端 (一 个 独立 的 控制 台 窗 口 ， 是 X-window 版 本 的 xspim 
或 者 Windows 版 本 的 Pcspim) 连接 到 处 理 器 上 。 运 行 在 SPIM 上 的 一 个 MIPS 程序 可 以 读 取 你 
输入 的 字符 。 另 外 ， 如 果 MIPS 程序 可 以 在 终端 写字 符 ， 字 符 将 出 现在 SPIM 的 终端 或 者 控制 台 
窗口 。 这 个 规则 的 一 个 异常 是 control-C: 这 个 字符 没有 被 传递 到 程序 中 ， 但 是 导致 SPIM 停止 ， 
而 且 返 回 到 命令 行 模式 。 当 程序 停止 运行 (例如 ， 因 为 你 输入 control-C， 或 者 因为 程序 遇 到 一 
个 断 点 ) 时 ,终端 被 重新 连接 到 SPIM， 这 样 你 就 可 以 输入 SPIM 指令 了 。 

为 了 使 用 内 存 映 射 的 VO ( 见 下 面 )，spim 或 者 xspim 必须 使 用 - mapped io 标志 来 启 


” 动 。PCSpim 通过 一 个 命令 行 标志 可 以 允许 内 存 映射 的 0。 或 者 通过 “设置 ”对 话 框 来 实现 。 


终端 设备 由 两 个 独立 的 单元 组 成 : 一 个 “接收 者 ”和 一 个 “发 送 者 ”"。 接 收 者 读 来 自 键盘 
的 字符 。 发 送 者 在 终端 (控制 台 ) 显示 字符 。 两 个 单元 完全 独立 。 这 意味 着 , 例如， 从 键盘 
输入 的 字符 不 能 自动 重复 显示 。 相 反 ， 一 个 程序 通过 从 接收 者 那里 读 一 个 字符 ， 而 且 将 其 写 到 
发 送 者 那里 。 

一 个 程序 控制 着 一 个 具有 4 个 内 存 映射 的 设备 寄存 器 的 终端 ， 如 图 A-8-1 所 示 。“ 内 存 映 
射 ”意味 着 每 个 寄存 器 作为 一 个 特殊 的 内 存 地 址 。 一 个 接收 者 控制 寄存 器 是 在 地 址 ff0000,。， 
实际 仅 用 到 它 的 两 个 位 。 位 0 称 作 “ready”( 预 备 ) : 如 果 它 是 1， 这 意味 着 一 个 字符 从 键盘 到 
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达 ， 但 是 还 没有 从 数据 接收 器 的 寄存 器 中 读 出 。ready 位 是 只 读 的 : 对 它 的 写 操作 会 被 忽略 。 
当 字符 从 键盘 输入 时 ，ready 位 从 0 转换 到 1， 而 且 当 字符 从 接收 器 数据 寄存 器 读 取 时 ，ready 
位 从 1 转换 到 0。 


接收 器 控制 
(0xffff0000) 


接收 器 数据 
《0Oxfftf0004) 


发 送 器 控制 
COxffFF0008) 


发 送 器 数据 
(0xffff000c) 





图 A-8-1 终端 被 4 个 设备 寄存 器 控制 着 ,每 个 寄存 器 在 给 定 地 址 作为 一 个 内 存 地 址 。 仪 仅 这 些 

寄存 器 的 一 些 位 实际 上 被 使 用 。 别 的 位 通常 被 读 成 0， 对 它们 的 写 被 忽略 

接收 器 的 控制 寄存 器 的 第 1 位 是 键盘 “中 断 允 许 位 ” 。 这 个 位 可 以 被 程序 读 ， 也 可 以 被 写 。 
中 断 允 许 位 初始 为 0。 如 果 它 被 程序 设置 成 1， 无论 何 时 字符 被 输入 ,终端 在 硬件 级 1 请 求 一 
个 中 断 。 然 而 ， 中 断 影 响 到 处 理 器 ， 中 断 必 须 在 状态 寄存 器 中 设置 成 允许 〈 见 A.7 节 ) 。 接 收 
器 的 控制 寄存 器 别 的 位 都 没有 被 使 用 。 

第 二 个 终端 设备 寄存 器 是 接收 器 数据 寄存 器 〈 在 地 址 ft0004,。) 。 这 个 寄存 器 的 低 8 位 包 
含 着 从 键盘 输入 的 最 后 字符 ， 别 的 位 都 是 0。 这 个 寄存 器 是 只 读 而 且 仅 当 一 个 新 的 字符 从 键盘 
被 输入 时 才 改 变 。 读 取 接 收 器 数据 寄存 器 导致 接收 器 控制 寄存 器 的 ready 位 复位 成 0。 如 果 接 
收 器 控制 寄存 器 是 0， 这 个 寄存 器 中 的 值 没有 被 定义 。 

第 三 个 终端 设备 寄存 器 是 发 送 者 控制 寄存 器 〈 在 地 址 ft0008is) 。 当 这 个 寄存 器 只 有 
低 两 位 被 使 用 。 它 们 的 行为 和 接收 器 控制 寄存 器 很 相似 。 第 0 位 称 作 “ready”， 而 且 是 只 
读 的 。 如 果 这 个 位 是 1， 发 送 者 准备 为 输出 接受 一 个 新 的 字符 ; 如 果 是 0， 发 送 者 将 仍然 
忙于 写 前 一 个 字符 。 第 1 位 是 “终端 允许 位 ”， 而 且 是 可 读 可 写 的 。 如 果 这 个 位 被 设置 成 
1， 无 论 发 送 者 是 否 准备 好 一 个 新 的 字符 ,终端 在 硬件 0 级 请 求 一 个 中 断 ， 然 后 ready 位 
变 成 1。 

最 后 一 个 设备 寄存 器 是 发 送 者 数据 寄存 器 (在 地 址 fff000cie ) 。 当 一 个 值 被 写 人 这 个 地 址 
处 时 ， 它 的 低 8 位 〈 例 如 ， 第 2 章 的 图 2-15 中 的 一 个 ASCII 字符 ) 被 发 送 到 控制 台 。 当 发 送 者 
数据 寄存 器 被 写 时 ， 发 送 者 控制 寄存 器 的 ready 位 被 设置 成 0。 这 个 位 保持 为 0， 直 到 字符 发 送 
到 终端 花费 了 足够 的 时 间 ; 然后 ready 位 又 一 次 变 成 1。 发 送 者 数据 寄存 器 应 当 仅 仅 当 发 送 者 
控制 寄存 器 的 ready 位 是 1 的 时 候 可 以 被 写 人 。 如 果 发 送 者 没有 准备 好 ， 写 人 到 发 送 者 数据 寄 
存 器 的 数据 会 被 忽略 〈 写 人 会 成 功 ， 但 是 字符 没有 输出 ) 。 

实际 的 计算 机 需要 时 间 来 将 字符 发 送 到 控制 台 或 者 终端 。 这 些 时 间 延 迟 会 被 SPIM 仿真 器 
模拟 。 例 如 ， 在 发 送 者 开始 写 一 个 字符 之 后 ， 发 送 者 的 ready 位 之 后 不 久 就 变 成 0。SPIM 按照 
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指令 的 执行 来 测量 时 间 ， 而 不 是 按照 实际 的 时 间 。 这 就 意味 着 发 送 者 不 会 变 成 ready， 直 到 处 
理 器 执行 一 个 固定 数量 的 指令 。 如 果 你 停止 机 器 ,而且 查看 其 ready 位 ， 它 是 不 会 改变 的 。 然 
而 ， 如 果 你 让 机 器 运行 ， 这 个 位 最 终 会 变 成 1。 


A.9 SPIM 


SPIM 是 一 个 软件 仿真 器 ， 它 运行 为 处 理 器 编写 的 汇编 语言 程序 ， 实 现 MIPS-32 体系 结构 ， 
尤其 体系 结构 的 版 本 1 具备 固定 的 内 存 映射 ， 没 有 cache， 而且 仅 仅 有 控 处 理 器 0 和 协 处 理 
器 1。2=SPIM 的 名 字 恰 恰 是 MIPS 的 倒 写 拼 法 。SPIM 可 以 读 而 且 可 以 立即 执行 汇编 语言 文件 。 
SPIM 是 一 个 自 含 的 系统 ， 用 于 运行 MIPS 程序 。 它 包含 一 个 调试 器 ， 并 提供 一 些 类 似 操 作 系 统 
的 服务 。SPIM 比 实际 的 计算 机 要 慢 得 多 (100 倍 或 更 多 ) 。 然 而 ， 它 代价 小 ， 可 用 性 广泛 ， 是 
真实 硬件 所 无 法 比拟 的 。 

一 个 明显 的 问题 是 , “为 什么 在 人 们 拥有 PC， 且 其 使 用 的 处 理 器 比 SPIM 运行 快 得 多 时 ， 
却 还 使 用 仿真 器 ?” 原 因 之 一 是 这 些 PC 中 的 处 理 器 是 Intel 的 80x86 ， 它 们 的 结构 不 太 规 则 ， 而 
且 复杂 ， 难 以 理解 ， 比 MIPS 处 理 器 编程 困难 。MIPS 结构 可 能 是 一 个 简单 、 整 洁 的 RISC 机 器 
的 缩影 。 

另外 ， 仿 真 器 能 够 为 汇编 编程 提供 一 个 比 实 际 机 器 更 好 的 环境 ， 因 为 它们 能 检测 出 更 多 的 
错误 ， 提 供 一 个 比 实际 计算 机 更 好 的 接口 。 

最 后 ， 仿 真 器 是 研究 计算 机 和 在 其 上 运行 的 程序 的 有 用 工具 。 因 为 它们 是 以 软件 方式 实现 
的 ， 而 不 是 硅 。 所 以 对 于 添加 新 指令 ， 构 建 像 多 处 理 器 这 样 的 新 系统 ， 或 者 收集 数据 这 样 简单 
的 事情 ， 使 用 仿真 器 容易 验证 也 容易 修改 。 


A.9.1 虚拟 机 的 仿真 


由 于 延迟 分 支 、 延 迟 加 载 、 受 限制 的 地 址 模式 等 原因 ， 基 本 的 MIPS 体系 结构 很 难 直接 纺 
程 。 这 个 困难 是 可 忍受 的 ， 因 为 这 些 计算 机 被 设计 用 来 使 用 高 级 语言 编程 ， 所 以 是 给 编译 器 ， 
而 不 是 给 汇编 语言 程序 员 提 供 接口 。 编 程 复杂 度 的 很 大 一 部 分 是 由 延迟 指令 导致 的 。 一 个 延迟 
的 分 支 需要 两 个 周期 来 执行 ( 见 第 4 章 的 4.5 节 和 4.8 节 的 精 解 )。 在 第 二 个 周期 ， 执 行 那 条 
紧 跟 分 支 指令 的 指令 。 这 条 指令 能 执行 有 用 的 工作 ， 而 正常 情况 下 该 工作 可 能 在 分 支 指令 之 前 
已 经 完成 。 它 可 能 是 没有 任何 操作 的 nop 指令 。 同 样 ， 延 迟 加 载 需要 两 个 周期 来 将 一 个 值 从 
内 存 中 取 回 ， 所 以 紧 跟 其 后 的 指令 无 法 使 用 这 个 值 〈 见 第 4 章 的 4.2 节 )。 

MIPS 一 般 通 过 汇编 语言 实现 的 虚拟 机 (〈 virtual machine) 隐藏 复杂 度 。 虚 拟 机 没有 延迟 的 
分 支 、 加 载 ， 而 且 具 有 比 实际 硬件 更 丰富 的 指令 集 。 汇 编 器 将 这 些 指令 重新 组 织 〈 分 派 ) 到 
延迟 槽 中 。 虚 拟 机 也 提供 伪 指 令 ， 这 些 指令 看 起 来 和 汇编 语言 程序 中 的 真实 指令 一 样 。 然 而 ， 
硬件 完全 不 知道 这 些 伪 指令 ， 所 以 汇编 器 必须 将 其 翻译 成 实际 机 器 指令 的 等 价 序列 。 例 如 ， 当 
一 个 寄存 器 等 于 0 或 者 不 等 于 0 的 时 候 ，MIPS 硬件 仅仅 提供 分 支 指令 。 对 于 其 他 的 条 件 分 支 ， 
例如 那 种 当 一 个 寄存 器 的 值 比 另 一 个 寄存 器 的 值 大 时 就 进行 分 支 的 类 型 ， 分 支 指令 会 被 综合 
两 个 寄存 器 的 比较 ， 然 后 当 其 比较 的 结果 是 真 〈 非 零 ) 时 就 执行 分 支 。 


含 “虚拟 机 : 一 种 虚拟 计算 机 ， 它 分 支 和 取 数 指令 没有 延迟 ， 且 指令 集 比 实际 硬件 更 丰富 。 





名 SPIM 的 早期 版 本 (7.0 以 前 的 版 本 ) 实现 了 MIPS-1 的 体系 结构 ， 使 用 原始 的 MIPS R2000 处 理 器 。 这 个 体 
系 结构 几乎 是 MIPS-32 体系 结构 的 子 集 ， 不 同 在 于 异常 处 理 的 方式 。MIPS-32 也 引入 了 将 近 60 个 新 指令 ， 
SPIM 支持 这 些 指 令 。 程 序 可 以 在 SPIM 的 早期 版 本 中 运行 ， 而 且 不 使 用 异常 的 程序 可 以 不 加 修改 在 新 版 本 
SPIM 上 运行 。 使 用 异常 的 程序 将 需要 少许 的 修改 。 


汇编 器 、 链 授 器 和 SPIM 份 真 器 413 














默认 情况 下 ，SPIM 模拟 指令 集 更 丰富 的 虚拟 机 ， 因 为 这 是 一 个 对 很 多 程序 员 来 说 很 有 用 
的 机 器 。 然 而 ，SPIM 也 能 模拟 实际 的 硬件 的 延迟 分 支 以 及 延迟 取 数 操作 。 下 面 ， 我 们 描述 虚 
拟 机 并 且 仅 提 及 其 和 实际 的 硬件 没有 关系 的 特性 。 这 样 做 ， 我 们 遵循 了 MIPS 的 汇编 程序 员 
《汇编 器 ) 的 规程 ， 他 们 将 扩展 的 机 器 当成 是 由 硅 实现 的 机 器 那样 使 用 。 


A.9.2 从 SPIM 开始 


本 附录 的 剩余 的 部 分 介绍 SPIM 和 MIPS R2000 汇编 语言 。 你 不 用 关注 过 多 的 细节 ， 然 而 ， 
大 量 的 信息 很 多 时 候 会 模糊 以 下 事实 : SPIM 是 个 简单 易 用 的 程序 。 本 节 我 们 先 以 SPIM 的 快速 
使 用 教程 开始 ， 教 会 你 加 载 、 调 试 、 运 行 简单 的 MIPS 程序 。 

对 于 不 同类 型 的 计算 机 系统 ，SPIM 有 几 个 不 同 的 版 本 。 其 中 一 个 经 久 不 变 的 ， 是 最 简单 
的 版 本 ， 称 为 spim， 它 是 运行 在 控制 窗口 下 的 一 个 命令 行 驱动 程序 。 它 和 很 多 控制 台 程 序 一 
样 操作 : 输入 一 行文 本 ， 按 return 键 ，spim 执行 你 的 命令 。 尽 管 spim 缺乏 精美 的 界面 ， 
但 它 可 以 做 具有 精美 界面 的 同类 版 本 可 以 做 的 任何 事情 。 

spim 拥有 两 个 界面 精美 的 版 本 。 运 行 在 UNIX 或 者 Linux 系统 上 的 X- windows 环境 下 的 版 
本 称 为 xspim。 与 spim 相 比 ，xspim 更 易于 学 习 和 使 用 ， 因 为 它 的 指令 总 是 在 屏幕 上 可 见 
的 ， 且 持续 显示 机 器 的 寄存 器 和 内 存 。 另 一 个 版 本 是 PCspim， 运 行 在 微软 的 Windows 系统 下 。 
SPIM 的 UNIX 和 Windows 版 本 都 在 本 书 配 套 网 站 上 。xspim、pcsSpim、spim 的 教程 和 SPIM 
六 令 行 选项 都 在 网 站 上 。 

如 果 你 打算 在 运行 微软 Windows 系统 的 PC 上 运行 SPIM， 你 应 当先 阅读 网 站 上 的 PCSpim 
教程 。 如 果 你 打算 在 运行 UNIX 或 Linux 的 PC 上 运行 SPIM， 你 应 当 阅 读 网 站 上 的 xspim 教程 。 


A. 9. 3 令 人 惊讶 的 特性 


尽管 如 实地 仿真 了 MIPS 计算 机 ,但 SPIM 作为 一 个 仿真 器 ， 和 实际 计算 机 必定 是 不 相同 
的 。 最 明显 的 区 别 是 ， 指 令 的 时 序 和 内 存 系统 不 同 。SPIM 不 模拟 cache 或 者 存储 器 的 延迟 ， 也 
不 会 精确 反映 浮 点 操作 、 乘 法 或 者 除法 指令 的 延迟 。 另 外 ， 浮 点 指令 不 检测 错误 条 件 ， 而 这 在 
实际 机 器 上 将 导致 异常 。 

另 一 个 令 人 惊讶 的 特性 〈 这 种 情形 在 真实 机 器 上 也 会 发 生 ) 是 将 伪 指令 扩展 成 多 条 机 器 
指令 。 当 你 单 步调 试 或 者 检查 存储 器 ， 你 所 看 到 的 指令 和 原始 的 程序 不 相同 。 两 组 指令 之 间 的 
对 应 性 相当 简单 ， 因 为 SPIM 并 没有 为 了 填充 延迟 槽 而 重组 指令 。 


A. 9.4 字 节 顺序 


处 理 器 能 对 字 中 的 字 节 进行 编号 ， 这 样 编号 最 小 的 字 节 不 是 在 最 左边 就 是 在 最 右边 。 机 器 
使 用 的 该 约定 称 为 字 节 顺序 。MIPS 处 理 器 可 以 依 大 端 字 节 顺序 或 者 小 端 字 节 顺序 进行 操作 。 
例如 ， 在 大 端 机 器 下 ， 指 令 byte 0 ,1 ,2 ,3 将 引起 一 个 内 存 字 包含 : 


字 节 号 


但 是 在 小 端 机 器 下 ， 一 个 字 可 能 包含 : 
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SPIM 以 两 种 字 节 顺序 操作 。SPIM 的 字 节 顺序 和 运行 仿真 器 的 底层 机 器 的 字 节 顺序 是 一 样 
的 。 例 如 ， 在 Intel 80x86 处 理 器 上 ，SPIM 是 小 端 ， 然 而 在 Macintosh 或 者 Sun SPARC 处 理 器 
上 ，SPIM 是 大 端 。 


A. 9.5 系统 调用 


SPIM 通过 系统 调用 (syscal1) 指令 提供 了 一 小 组 类 似 操作 系统 的 服务 。 为 了 请 求 一 个 
服务 ， 一 个 程序 加 载 系统 调用 代码 ( 见 图 A-9-1) 到 寄存 器 $v0 ， 将 参数 加 载 到 寄存 器 $a0 ~ 
$a3 (或 用 于 浮 点 值 的 $f12 ) 。 系 统 调用 将 返回 值 放 到 $v0 (或 用 于 浮 点 值 的 $fo ) 。 例 如 ， 
下 面 的 代码 将 打印 "the answer =5": 


.data 

Stps 
.asciiz “the answer = ” 
.text 
1 $v0O, 4 # system call code for print_str 
la $a0, str # address of string to print 
syscall # print the string 
1i $vO, 1 # system call code for print_int 
1i $a0, 5 # integer to print 
syscall # print it 


ET 


























Print dnt $a0 = integer 
print float $f£12 =float 
print double $f£12 = double 
print string $a0 = string 








read int 





integer (in $v0) 
foat (in $£0) 


double (in $f£0) 


read foat 











read double 








read string | $a0 =buffer, $al =length 








‘© 一 





































| sbrk $a0 = amount address (in $v0) 

| exit 下 10 

print char $a0 = char 

read char char (in $v0 ) 
| 


$a0 =file descriptor, 
$al =buffer, $a2 =length 
$a0 = file descriptor, 
$al =buffer, $a2 =length 
$a0 = file descriptor 


num chars read (in $a0) 

















num chars written (in $a0) 



















$a0 = result 
A-9-1 系统 服务 

给 print int 系统 调用 传递 一 个 整数 并 在 终端 上 打印 出 来 。print float 打印 一 个 单 
精度 浮 点 数 ; print_double 打印 出 来 一 个 双 精 度数 ; 而 给 print_string 传递 一 个 指向 空 


的 终止 数据 串 的 指针 ， 这 个 字符 串 写 到 终端 上 。 
系统 调用 read int、read float 以 及 read double 来 读 取 一 个 完整 的 输入 行 ， 并 包 
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含 一 个 新 行 。 数 字 后 面 的 字符 串 将 被 忽略 。read_ string 具有 和 UNIX 库 例 程 fgets 相同 的 
语义 。 它 将 读 取 的 n -1 个 字符 存 到 缓冲 区 ， 并 使 用 一 个 空 字 节 作为 结束 符 。 如 果 当 前 行 中 的 
字符 数 少 于 n” -1 个 ，read_string 将 读 取 到 新 行 ， 并 再 次 使 用 一 个 空 字 节 作 为 结束 符 。 
警告 : 使 用 系统 调用 从 终端 读 取 数据 的 程序 不 应 当 使 用 内 存 映射 的 IO ( 见 A.8 节 )。 
sbrk 返回 一 个 指向 包含 个 额外 字 节 块 的 存储 器 指针 。exit 可 以 终止 SPIM 正在 执行 的 程 
序 。exit2 终止 SPIM 程序 ,并且 当 SPIM 仿真 器 终止 时 ,传递 给 exit2 的 参数 将 变 成 返回 值 。 
print_char 和 read_char 分 别 读 和 写 单个 字符 。open、read、write 和 close 是 
UNIX 的 标准 库 调 用 。 


A. 10 MIPS R2000 汇编 语言 


MIPS 处 理 器 由 整 型 处 理 单元 (CPU) 和 一 系列 协 处 理 器 〈 用 于 执行 辅助 工作 或 诸如 浮 点 
等 其 他 数据 类 型 的 操作 ) 组 成 〈 见 图 A-10-1) 。SPIM 可 模拟 两 个 协 处 理 器 。 协 处 理 器 0 用 于 处 
理 异 常 和 中 断 。 协 处 理 器 1 是 浮 点 运算 单元 。SPIM 模拟 本 单元 的 大 多 数 功能 。 


ET 
二 
| 11 





图 A-10-1 MIPS R2000 CPU 和 FPU 


A. 10. 1 寻 址 模式 


MIPS 采取 加 载 和 存储 体系 结构 ， 也 就 是 说 ， 只 有 加 载 和 存储 指令 访问 存储 器 。 计 算 指令 
只 对 寄存 器 中 的 值 进行 处 理 。 机 器 本 身 只 提供 一 种 存储 器 寻 址 模式 : c(rx)。 它 把 立即 数 c 和 
寄存 器 rx 的 值 相 加 作为 地 址 。 虚 拟 机 则 为 加 载 和 存储 指令 提供 了 以 下 几 种 寻 址 方式 : 


格式 地 址 计算 
(寄存 器 ) 寄存 器 内 容 
立即 数 立即 数 
立即 数 〈 寄 存 器 ) 立即 数 + 寄存 器 内 容 








A-45 
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( 续 ) 
格式 LE 
标识 | 地 址 标识 . 
标识 + 立即 数 | 地 址 标识 + 或 -立即 数 
标识 + 立即 数 (寄存器 ) 地 址 标识 + 或 - (立即 数 + 寄存 器 内 容 ) 




















大 多 数 加 载 和 存储 指令 只 对 对 齐 数 据 进 行 处 理 。 以 字 节 为 单位 ， 当 数据 所 在 的 存储 器 地 址 
是 其 大 小 的 整数 倍 时 ， 我 们 就 说 数据 是 对 齐 的 。 因 此 ， 半 字 对 象 必须 存放 在 偶 地 址 ， 而 全 字 对 
象 必须 存放 在 4 的 整数 倍 的 地 址 。 但 是 ，MIPS 还 提供 了 另外 一 些 指令 ， 可 以 对 非 对 齐 数 进行 
操作 (如 lw1l，1lwr，swlLl 和 swr)。 


邯 ] 精 解 MIPS 汇编 器 (SPIM 也 一 样 ) 通过 在 对 数据 存 取 之 前 产生 一 条 或 多 条 指令 来 计算 复 
杂 的 地 址 ， 因 此 它 也 支持 一 些 复杂 的 寻 址 模式 。 例 如 ， 假 设 标识 table 指向 存储 器 地 址 
0x10000004 ,并 且 程 序 包含 一 条 这 样 的 指令 : 

1d $a0, table + 4($al) 
汇编 器 会 将 这 条 指令 转化 为 下 面 三 条 指令 : 
lui $at, 4096 


addu $at, $at, $al 
lIw $a0, 8($at) 


第 一 条 将 标记 地 址 的 高 位 送 入 寄存 器 $at (该 寄存 器 是 汇编 器 为 自己 保留 的 )。 第 二 
条 将 寄存 器 $al 的 内 容 加 到 标识 的 局 部 地 址 上 。 最 后 ， 加 载 指令 用 硬件 寻 址 模式 将 标识 
地 址 的 低位 和 寄存 器 $at 中 相对 原始 指令 的 偏 移 量 相 加 。 


A. 10.2 汇编 语法 


汇编 文件 中 的 注释 行 以 “#” 开始 。 所 有 以 “# 开头 的 指令 行 都 会 被 忽略 。 

标识 符 由 字母 、 数 字 、 下 划 线 (~-) 和 点 (. ) 构成 ， 但 不 能 以 数字 开头 。 指 令 操作 码 
是 一 些 保留 字 ， 不 能 用 作 标 识 符 。 标 识 是 这 样 表示 的 : 将 其 放 在 行 首 ， 后 跟 冒 号 〈:)。 
例如 : 


.data 
item: .word 1 

.text 

.gl1ob1 main # Must be global 
main: 1w $t0, item 


数值 默认 是 十 进 制 。 如 果 数 值 以 0x 开始 ， 则 表明 它们 是 十 六 进 制 数 。 因 此 ，256 和 0x100 
所 表示 的 数值 是 相同 的 。 
字符 串 用 双 引号 (" ) 括 起 来 。 字 符 串 中 的 特殊 字符 遵从 C 语言 规范 : 


。 换行 \n 

。 制 表 \t 

e 引号 上 . 

SPIM 还 支持 一 些 MIPS 汇编 指令 : 

.align n 将 数据 以 2" 字 节 分 界 。 例 如 ，. align 2 将 数据 以 字 为 单位 分 


界 ; . align 0 关闭 .half、.word、. float 和 . double 的 自 
动 分 界 方法 ， 直 到 出 现 . data 或 . kdata 为 止 。 

“ascii str 将 字符 串 str 存 人 主 存 中 ,但 不 以 空 字符 结束 。 

id 将 字符 串 str 存 人 主 存 ， 并 以 空 字符 结束 。 
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. byte bl,*…, bn 将 nn 个 值 存 人 主 存 的 连续 字 节 中 。 
.data <addr> 将 后 续 项 存 人 数据 段 中 。 如 果 给 出 了 可 选 参数 addr， 则 后 续 项 
存 人 以 addr 开始 的 主 存 地 址 中 。 


. double dl ，…，, dn 将 nn 个 双 精 度 浮 点 数 存 人 连续 的 主 存 单元 。 

.extern sym size 声明 存储 在 sym 中 大 小 为 size 字 节 的 全 局 变量 。 该 指令 允许 汇编 
器 将 数据 存放 到 数据 段 中 ， 这 样 可 以 用 $gp 寄存 器 快速 存 取 。 

. float f1，…， fn 将 个 单 精度 浮 点 数 存 人 连续 的 主 存单 元 。 

. globl sym 声明 sym 是 全 局 标记 ， 可 以 在 其 他 文件 中 引用 。 

.half hl,:…,hn 将 个 16 位 数据 存 人 连续 的 主 存单 元 。 

.kdata <addr > 将 后 续 数 据 项 存 人 核心 数据 段 中 。 如 果 给 出 了 可 选 参数 addr， 
则 后 续 项 存 人 以 addr 开始 的 主 存 地 址 中 。 

.ktext <addr > 将 后 续 项 放 入 核心 代码 段 。 在 SPIM 中 ， 这 些 后 续 项 只 能 是 指令 
或 字 (参看 下 面 的 .word 指令 )。 如 果 给 出 了 可 选 参数 addr， 
则 后 续 项 存 人 以 addr 开始 的 主 存 地 址 中 。 

.set noat 和 . set at 前 一 指令 阻止 SPIM 对 后 续 指 令 中 使 用 $at 寄存 器 的 警告 ， 局 二 
指令 恢复 这 种 警告 。 由 于 伪 指 令 展 开 成 指令 时 会 用 到 寄存 器 
$at ， 程 序 员 必 须 谨 慎 使 用 寄存 器 $at。 


. Space n 在 当前 段 分 配 字 节 (SPIM 中 则 必须 为 数据 段 ) 。 
.text <addr > 将 后 续 项 送 入 用 户 代 码 段 中 。 在 SPIM 中 ， 这 些 后 续 项 只 能 是 指 


令 或 字 (参看 下 面 的 . word 指令 ) 。 如 果 给 出 了 可 选 参数 addr， 
则 后 续 项 存 人 以 addr 开始 的 主 存 地 址 中 。 

.Word wl,***,wn 将 个 32 位 数据 存 人 连续 的 主 存 字 中 。 

SPIM 不 区 分 数据 段 的 不 同 部 分 (. data, . rdata 和 . sdata)。 


A. 10.3 MIPS 指令 编码 


图 A-10-2 描述 了 MIPS 指令 是 如 何以 二 进 制 数 进行 编码 的 。 每 一 列 包含 指令 字段 (邻接 的 
一 组 二 进 制 位 ) 的 编码 。 左 边界 的 数字 是 对 应 字段 的 值 。 例 如 ， 操 作 码 j 在 操作 码 字 段 的 值 为 
2。 每 列 顶 上 的 文字 定义 了 一 个 字段 ， 并 且 指出 了 占用 指令 中 的 哪些 位 。 例 如 ，op 字段 对 应 指 
令 中 的 26 ~31 位 。 该 字段 对 大 多 数 指令 进行 了 编码 。 然 而 ， 有 些 指令 组 用 到 了 附加 字段 以 区 
别 相关 的 指令 。 例 如 ， 不同 的 浮 点 数 指令 用 0 ~5 位 进行 区 别 。 第 一 列 的 箭头 表明 哪些 操作 码 
用 到 了 这 些 附加 字段 。 


A. 10.4 指令 格式 


本 附录 的 剩余 部 分 将 对 由 MIPS 硬件 实现 的 指令 和 MIPS 汇编 器 实现 的 伪 指令 进行 描述 。 这 
两 种 指令 很 容易 区 分 。 实 际 指令 的 字段 用 对 应 的 二 进 制 来 表示 。 例 如 : 


加 法 操作 ( 带 溢出 位 ) 
| 0 rs rt rd 0 Ox20 
add 指令 由 6 个 字段 组 成 。 字 段 的 长 度 标 在 字段 下 面 。 该 指令 由 6 位 0 开始。 寄存 器 标识 
符 以 + 开始 ， 因 此 接 下 来 的 字段 是 称 为 rs 的 5 位 寄存 器 标识 符 。 它 与 本 行 左边 汇编 代码 中 的 
第 二 个 参数 相同 。 另 一 个 常用 字段 是 imm,。 ， 它 是 一 个 16 位 立即 数 。 











add rd, rs, rt 
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(16:10) (16:10) 
> 0 movf 0 movf.f 
1 movt 1 movtf 
0 0 CO 10 fneu5:0 Y finct (5:0) 
8 dd 
1 ， 1 oH 1s mh 
2 4 ， | 2 sr 2 maddu 
3 Ja 3 sra 3 mul 
4 Deq 4 sllv msub 
6 Hen 6 srlv 6 msubu 
7 DB 7 srav a 
8 08 addi 8 8 
9 addtu 9 Jalr 9 
10 10 movz 10 
pea 
Syscal 
13 Ti 13 break 13 
人 | 
ui sync 
16 10 z=0 e- 16 mfhi 16 
17 11 @- 17 mthi 17 
L185， 1 之 18 mflo 18 
19 13 19 mtlo 19 
20 14 20 20 
21 15 21 21 
22. 16 22 22 
23 17 23 23 
24 18 24 muit 24 
25 19 25 multu 25 
26 1a 26 div 26 ， 
27 lb 27 divu 27 
入 和 :20 | 
30 le rs if z= 1 or z=2 funct rt 30 30 
31 If (25:271) (17:16)»— (4:0) (20:16) 31 31, 
32 20 0 “mfez 0 box 0 | 0 jbltz 32 add 32 cvt.s, 6 
33 21 由 1 ] bext 1 tbr 1 pe 33 addu 33 ovtd 太 clo 
34 22 lwl 2 cfez 2 bextl 2 tlbwi 2 bltzl Sub 34 
35 23 Ww 3 3 becxtl 3 7 3 1 ubu 35 | 
Bh 4 mtcxz 4 4 36 cvt.wf 
25 Wi 5 5 5 37 
6 ctez 6 tbwr 6 38 
7 7 ww 7， 39 
8 8 tibp 8 40 
9 9 9 41 
10 10 10 42 
11 11 11 43 | 
12 12 12 44 
13 13 13 45 
14 14 14 46 
15 15 1 47 人 和 
16 x 16% | 16 48 Et7 
17 17 | 17 49 cunf 
18 18 18 50 cieqf 
19 19 19 51 cueq, 
20 20 20 52 c.olt 
21 21 21 53 Catf 
22% 22 22 54 c.ole.f 
23| 23 ， ，  ， ， 23 55 culef 
全 时， 
， cngle, 
26 26 26 58 Sng 
27 27 2 59 cnglf 
28 28 28 60 ct 
29 29 291 61 cngef 
30 ， 30 1 30 62 Ge 
31 1 31 deret 31 63 cngtf 

















图 A-10-2 ”MIPS 操作 码 图 。 每 个 字段 的 数值 在 它 的 左 侧 显示 。 第 一 列 、 第 二 列 是 第 三 列 中 操作 符 字 段 
(31 ~26 位 ) 对 应 的 十 进 制 值 和 十 六 进 制 值 。 该 操作 符 字 段 能 表达 除了 6 个 操作 数 (0，1， 
16，17，18，19) 以 外 的 任何 MIPS 操作 。 这 些 操作 由 其 他 字段 确定 ， 由 指针 进行 识别 。 如 
果 rs=16， op =17， 最 后 的 字段 (funct) 用 “f” 表示 “8s”; 如 果 rs=17, op=17， 则 “f” 
表示 “d”。 如 果 op =16，17，18，19， 则 第 二 列 (ms) 用“z” 分 别 表示 :“0” ，“1”，“2”， 
“3”。 如 果 rs =16 ， 则 操作 由 别处 定义 : 如 果 z=0， 则 操作 在 第 四 个 字段 中 定义 (4 ~0 位 ); 
如 果 z=1， 则 操作 在 最 后 的 字段 中 ， 且 f=s。 如 果 rs=17 且 z=1， 则 操作 在 最 后 的 字段 中 ， 
县 也 三 如 


伪 指 令 大 体 上 遵循 这 些 约 定 ， 但 省 略 了 指令 编码 信息 。 例 如 : 
乘 操作 (不 带 溢出 位 ) 


mul rdest, rsrcl, src2 


伪 指 令 
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在 伪 指 令 中 ，rdest 和 rsrcl 表示 寄存 器 ， 而 src2 表示 寄存 器 或 立即 数 。 通 常情 况 下 ， 
汇编 器 和 SPIM 将 一 条 通用 的 指令 格式 (例如 ，add $vl, $a0,0x55) 转化 为 特定 的 形式 
(例如 ,addi $vl, $a0,0x55)。 


A. 10.5 算术 和 逻辑 指令 


绝对 值 

abs rdest, rsrc 伪 指 令 

将 寄存 器 rsrc 的 值 求 绝对 值 再 存 人 寄存 器 rdest 中 。 
加 法 ( 带 洲 出 位 ) 


add vd, ss, ot [© re In [wu lo |6co| 
6 5 5 5 5 6 

加 法 (不 带 溢出 位 ) 

addu rd, rs, rt 0 经 | 


5 5 


将 寄存 器 rs 和 rt 的 和 存 人 寄存 器 2 中 
立即 数 加 ( 带 溢出 位 ) 

















addi rt, rs, imm [8 | Ss | rt ll | 
6 5 5 16 
立即 数 加 (不 带 洲 出 位 ) 
addiu rt, rs, imm | 和 | im A-50 
将 寄存 器 rs 与 立即 数 之 和 存 人 寄存 器 rt 中 。 A-51 
逻辑 与 
and rd, rs, rt 9 TS we, 
将 寄存 器 rs 与 rt 进行 逐 位 逻辑 与 ， 结果 存 人 寄存 器 rdo 
立即 数 与 
Oxc rs rt imm 


andi rt, rs, imm 


5 5 16 
将 寄存 器 rs 同 立即 数 进行 逐 位 逻辑 与 结果 存 人 寄存 器 rt。 
统计 起 始 为 1 的 个 数 
clo rd, rs [oxic |rs |o | rd | 0 | 0x21 | 
6 5 5 5 6 


5 














统计 起 始 为 0 的 个 数 
ri 0x20 


将 寄存 器 rs 中 数据 起 始 为 1 (0) 的 个 数 存 人 寄存 器 rd， 如 果 字 中 都 是 1 (0) ， 则 结果 为 32。 
除法 ( 带 溢出 位 ) 


dvrsrt [Lo Tr [nr lo [oaa 
6 5 5 


10 6 
除法 (不 带 溢出 位 ) 
divu rs, rt i 克 生 汪 珊 汪 下 到 


寄存 器 rs 被 寄存 器 rt . 除 ， 将 商 存 人 寄存 器 1 将 余数 存 人 寄存 器 hi 。 如 果 其 中 有 某 个 
操作 数 是 负数 ， 则 余数 取决 于 运行 SPIM 的 计算 机 系统 ， 而 与 MIPS 体系 结构 无 关 。 A-52 
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崔 录 4 





除法 ( 带 溢出 位 ) 











div rdest, rsrcl, src2 伪 指 令 
除法 (不 带 溢出 位 ) 
divu rdest, rsrcl, src2 伪 指 令 
将 寄存 器 rsrcl 和 src2 的 商 存 人 寄存 器 rdest。 
乘法 
- 
mult ms rt 9 中 ee 
6 5 5 10 6 
无 符号 数 乘法 
multu rs, rt 9 > 此 最 OS 
6 5 5 10 6 























将 寄存 器 rs 和 rt 的 数据 相 乘 , 乘积 的 低位 字 和 高 位 字 分 别 存 人 寄存 器 lo 和 hi。 
乘积 (不 带 溢出 位 ) 


[oxc [rs Jr rd lo | 2 
6 6 








mw rds FS, rt 


将 rs 和 rt 乘积 的 低 32 位 存 人 寄存 器 rd 中 。 
乘积 ( 带 溢出 位 ) 





mulo rdest, rsrcl, src2 伪 指 令 
无 符号 数 相 乘 ( 带 溢出 位 ) 
mulou rdest, rsrcl, src2 伪 指 令 


将 寄存 器 rsrcl 和 src2 的 乘积 结果 的 低 32 位 存 人 寄存 器 rdest。 
乘 加 















































madd rs, rt Oxic | 到 小 0 0 | 
6 5 5 10 6 

无 符号 乘 加 

maddu rs, rt Ox1e 上 0 | 1 | 
6 5 5 10 6 

将 寄存 器 rs 和 rt 的 乘积 所 得 的 64 位 结果 与 连接 寄存 器 1o 和 hi 中 的 64 位 值 相 加 。 

乘 减 

i Oxic | rs rt | 0 
6 5 5 10 6 

无 符号 乘 减 

rib a he | Ox1c | rs rt | 0 5 

















6 5 5 10 6 
将 寄存 器 rs 和 rt 的 乘积 所 得 的 64 位 结果 与 连接 寄存 器 1o 和 hi 中 的 64 位 值 相 减 。 
求 相反 数 ( 带 溢出 位 ) 








neg rdest, rsrc 伪 指 令 

求 相反 数 (不 带 溢出 位 ) 

negu rdest，rsrc 伪 指 令 

将 寄存 器 rsrc 的 相反 数 存 人 寄存 器 rdest。 

异 或 

| 二 | 于 | 
6 5 5 5 5 6 


将 寄存 器 rs 和 rt 的 异 或 结果 存 人 寄存 器 rd。 
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取 反 

not rdest, rsrc 伪 指令 

将 寄存 器 rsrc 逐 位 取 反 存 人 寄存 器 rdest。 
逻辑 或 





EF 让 全， 多 [|o | rs [In [ra | o | 0x25 | 
6 5 5 5 5 6 


将 寄存 器 rs 和 rt 按 位 逻辑 或 的 结果 存 人 寄存 器 rd。 
逻辑 或 (立即 数 ) 
ori rt, rs, imm [oe 人 Em | 


将 寄存 器 rs 和 0 扩展 立即 数 按 位 办 辑 或 的 结果 存 人 寄存 器 5 











求 余数 

rem rdest，rsrcl，rsrc2 伪 指 令 
求 无 符号 数 的 余数 

remu rdest; rsrcli, rsrc2 伪 指 令 


寄存 器 rsrcl 被 寄存 器 rsrc2 除 ， 将 余数 存 人 寄存 器 rdest。 注 意 ， 如 果 其 中 有 某 个 操 


作 数 是 负数 ， 则 余数 取决 于 运行 SPIM 的 计算 机 系统 ， 而 与 MIPS 体系 结构 无 关 。 


rdo 





























逻辑 左 移 
s11 rd, rt, shamt rs | rd | shamt | 0 
5 5 5 5 6 
逻辑 左 移 变量 
sTlv rd rt rs [o | ms [ | | [4 | 
6 5 5 5 5 6 ， 
算术 右 移 
sra rd, rt, shamt 0 | ms rt | rd | shamt [3 | 
6 5 5 5 5 6 
算术 右 移 变量 
Srav rd, rt, rs Lo L's | LS | rd 
6 5 5 5 5 6 
逻辑 右 移 
srl rd, rt, shamt [o | | rt ] 
6 5 5 5 5 6 
逻辑 右 移 变量 


srlv rd, rt, rs ln ln lm lo le 


由 立即 数 shamt 下 或 寄存 器 rs 指定 寄存 器 rt 的 左 移 或 右 移 位 数 ， 并 将 结果 存 人 寄存 器 


注意 ， 变 量 rs 被 sl1l1、sra 和 srl 所 忽略 。 
循环 左 移 

rol rdest, rsrel, rsrc2 伪 指 令 
循环 右 移 

ror rdest, rsrcl, rsrc2 伪 指 令 


将 寄存 器 rsrcl 左 移 或 右 移 由 rsrc2 指定 的 位 数 ， 然 后 将 结果 存 人 寄存 器 rdest。 
减法 ( 带 溢出 位 ) 
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减法 (不 带 溢出 位 ) 


























0 rs rt rd 0 Ox23 





subu rd, rs, rt 


将 寄存 器 rs 减 去 寄存 器 rt 并 将 结果 存 人 寄存 器 rd。 
异 或 





0 rs rt rd 0 Ox26 
5 5 5 5 6 


将 寄存 器 rs 和 rt 按 位 逻辑 异 或 的 结果 存 人 寄存 器 rd。 
异 或 ( 同 立 即 数 ) 























XOr rd, rs,. Tt 




















Oxe rs rt Imm | 
6 5 5 16 


将 寄存 器 rs 和 0 扩展 立即 数 按 位 逻辑 异 或 的 结果 存 人 寄存 器 rt。 
A. 10.6 常数 操作 指令 
立即 数 高 位 取 指 令 


xori rt, rs, imm 























Oxf 0 rt imm 
5 5 16 


将 立即 数 imm 的 低 半 字 位 存 人 寄存 器 rt 的 高 半 字 位 地 址 ， 并 将 寄存 器 的 低位 值 置 为 0。 
取 立 即 数 
1i rdest, imm 伪 指 令 


将 立即 数 imm 存 人 寄存 器 rdest。 
A. 10.7 比较 指令 


lui rt, imm 
































小 于 指令 

slt rd, rs, rt LO 坊 rt rd 0 Ox2a 
6 5 5 5 5 6 

小 于 无 符号 数 指令 

ST ra, FS Tt 0 rs rt rd 0 Ox2b 


























若 寄存 器 rs 比 rt 小 ， 则 将 寄存 器 ra 置 为 1; 否则 ,将 ra 置 为 0。 
小 于 立即 数 

















Slti RE rs, Tmm 


小 于 立即 数 (无 符号 数 ) 








Oxb rs rt imm 

















sltiu rt, rs, imm 


6 5 5 16 

若 寄存 器 rs 比 符号 扩展 立即 数 小 ， 则 将 寄存 器 rt 置 为 1; 否则 , 将 rt 置 为 0。 

等 于 

seq rdest rsrcl, rsre2 伪 指 令 

若 寄 存 器 rsrcl 与 寄存 器 rsrc2 的 数值 相等 ， 则 将 寄存 器 rdest 置 为 1; 否则 ,将 ra- 
est 置 为 0。 

大 于 等 于 


S9E Tdests rare1, Snec2 伪 指 令 
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大 于 等 于 无 符号 数 

sgeu rdest, rsrcl, rsrc2 伪 指 令 

车 寄存 器 rsrcl 大 于 等 于 寄存 器 rsrc2 的 值 ， 则 将 寄存 器 rdest 置 为 1; 否则 ,将 *d- 
est 置 为 0。 


大 于 

sgt rdest, rsrcl, rsrc2 伪 指 今 
大 于 无 符号 数 

sgtu rdest, rsrcl, rsrc2 伪 指 令 


如 果 寄 存 器 rsrcl 的 值 大 于 rsrc2 的 值 ， 那 么 令 寄存 器 rdest 的 值 为 1， 否 则 为 0。 
小 于 等 于 | 


sle rdest, rsrcl, rsree 伪 指 令 

小 于 等 于 无 符号 数 

sleu rdest, rsrcl, rsrc2 伪 指 令 

如 果 寄 存 器 rsrcl 的 值 小 于 等 于 rsrc2 的 值 ， 那 么 令 寄 存 器 rdest 的 值 为 1， 否 则 为 0。 
不 等 

sne rdest, rsrcl, rsrc2 伪 指 今 


如 果 寄 存 器 *srcl 的 值 不 等 于 rsrc2 的 值 ， 那 么 令 寄存 器 rdest 的 值 为 1， 否 则 为 0。 
A. 10. 8 分 支 指令 


分 支 指令 使 用 了 一 个 有 符号 的 16 位 指令 偏 移 域 ; 因此 ， 指 令 跳 转 的 范围 可 以 是 向 前 的 
25 -1 条 指令 ( 非 字 节 ) ， 或 者 向 后 的 25 条 指令 。 跳 转 指令 包含 了 一 个 26 位 的 地 址 域 。 在 实际 
的 MIPS 处 理 器 中 ， 分 支 指令 是 延迟 的 分 支 ， 直 到 分 支 指令 后 面 的 指令 (延迟 槽 ) 执行 后 ， 才 
能 进行 控制 转移 〈( 见 第 4 章 ) 。 当 分 支 发 生 时 ， 由 于 需要 计算 相关 的 延迟 槽 指令 (PC +4) 的 
地 址 ， 因 此 延迟 的 分 支 会 影响 偏 移 量 的 计算 。 除 非 明确 指定 - bare 或 者 - delayed branch 
的 标志 ， 和 否则 SPIM 不 模拟 延迟 槽 。 

在 汇编 语言 中 ， 偏 移 量 并 不 具体 指定 为 数字 。 而 是 用 一 个 指向 标记 的 指令 ， 并 用 汇编 器 计 
算出 分 支 指令 和 目标 指令 之 间 的 距离 。 

在 MIPS-32 中 ， 所 有 实际 的 (不 是 伪 的 ) 条 件 分 支 指令 都 有 相似 的 变 体 ( 例 如， 与 beq 
相似 的 变 体 是 beql) ， 如 果 分 支 没有 发 生 ， 那 么 分 支 延迟 槽 中 的 指令 就 不 能 执行 。 不 要 使 用 这 
些 指令 ， 在 后 续 的 体系 结构 版 本 中 ， 它 们 可 能 将 被 删除 。SPIM 实现 了 这 些 指令 ， 但 并 没有 做 








深入 讨论 。 
分 支 指令 
b 1abel 伪 指 邻 
无 条 件 转移 到 标记 的 指令 。 
分 支 协 处 理 器 假 
beilf ee Tabel [om [es [ec [o [orse | 
6 5 3 2 16 
分 支 协 处 理 器 真 
bclt cc label Fouls | orrset ] 


! 如 果 浮 点 协 处 理 器 条 件 标记 cc 为 候 ( 真 )， 条 件 转移 的 指令 数 由 偏 移 量 所 指定 。 如 果 cc 
被 指令 所 忽略 ， 条 件 码 标记 为 0。 


A-58 
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相等 分 支 

bed re jt Tabi La S | rte | 

如 果 寄 存 器 值 rs 和 rt 相等 ， 条 件 转移 的 指令 数 由 偏 移 量 所 指定 。 
大 于 等 于 0 分 支 

bgez rs, label [1 rs |1 | offset | 








如 果 寄 存 器 rs 的 值 大 于 等 于 0， 条 件 转移 的 指令 数 由 偏 移 量 所 指定 。 
大 于 等 于 0 分 支 并 链接 


1 |rs | Oxi1 | offset | 











bgezal rs, label 


如 果 寄 存 器 rs 的 值 大 于 等 于 0， 条 件 转移 的 指令 数 由 偏 移 量 所 指定 ， 并 将 下 一 条 指令 地 
址 保存 在 寄存 器 31 中 。 
































大 于 0 分支 
bgtz rs, label 2 | : ee 
如 果 寄 存 器 rs 的 值 大 于 0， 条件 转 移 的 指令 数 由 偏 移 量 所 指定 。 
小 于 等 于 0 分 支 
blez rs, label 6 全 0 | Offset | 
6 5 16 


如 果 寄 存 器 rs 的 值 小 于 等 于 0， 条件 转 移 的 指令 数 由 偏 移 量 所 指定 。 
小 于 0 分支 并 链接 














4 rs | Ox10 | Offset 
5 5 16 


如 果 寄 存 器 rs 的 值 小 于 0， 条 件 转移 的 指令 数 由 偏 移 量 所 指定 ， 并 将 下 一 条 指令 地 址 保 
存在 寄存 器 31 中 








bltzal rs, label 




















小 于 0 分支 
bltz rs, label | SS 0 Offset | 
6 5 5 16 
如 果 寄 存 器 rs 的 值 小 于 0， 条 件 转移 的 指令 数 由 偏 移 量 所 指定 。 
不 相等 分 支 
bne rs, rt, label 5 L's | r | offset | 








如 果 寄 存 器 rs 与 rt 中 的 值 不 相等 ,条件 转移 的 指令 数 由 偏 移 量 所 指定 。 
等 于 0 分支 


beqz rsrc, label 伪 指 令 

如 果 rsrc 等 于 0， 条件 转移 到 标记 的 指令 那里 。 
大 于 等 于 分 支 

bge rsrcl, rsrc2, label 伪 指 令 

大 于 等 于 无 符号 数 分 支 

bgeu rsrcl, rsrc2, label 伪 指 令 


如 果 寄 存 器 rsrcl 的 值 大 于 等 于 rsrc2 的 值 ， 条 件 转 移 到 标记 的 指令 那里 。 
大 于 分 支 


bgt rsrcl, src2, label 伪 指 令 
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大 于 无 符号 数 分 支 


bgtu rsrcl, src2, label 伪 指 令 

如 果 寄 存 器 rsrcl 的 值 大 于 src2 的 值 ， 条 件 转移 到 标记 的 指令 那里 。 

小 于 等 于 分 支 

ble rsrcl, src2, label 伪 指 令 A-62 
小 于 等 于 无 符号 数 分 支 

bieu rsrel, src2, label 伪 指 令 

如 果 寄 存 器 rsrci 的 值 小 于 等 于 src2 的 值 ， 条 件 转移 到 标记 的 指令 那里 。 
小 于 分 支 

blt rsrcl,.rsrc2, label 伪 指 令 

小 于 无 符号 数 分 支 

bltu rsrcl, rsrc2, label 伪 指 令 

如 果 寄 存 器 rsrcl 的 值 小 于 rsrc2 的 值 ， 条 件 转 移 到 标记 的 指令 那里 。 
不 等 于 0 分支 

bnez rsrc, label 伪 指 令 


如 果 寄 存 器 rsrc 的 值 不 等 于 0， 条 件 转移 到 标记 的 指令 那里 。 
A. 10.9 ” 跳 转 指令 

















跳 转 

j target 2 | target | 

无 条 件 跳 转 到 目 标 指令 

跳 转 并 链接 

jal target | S | target | 

无 条 件 跳 转 到 目标 指令 ， 并 将 下 一 条 指令 地 址 保存 到 $ra 中 。 A-63 
跳 转 并 链接 到 寄存 器 





jalr rs, Fd Le In 医 Iw [| 


无 条 件 跳 转 到 由 寄存 器 rs 指定 的 指令 (指令 地 址 在 寄存 器 rs 中 ) ， 并 将 下 一 一 条 指令 地 址 
保存 在 寄存 器 rd 中 (默认 为 31)。 
寄存 器 跳 转 


jr rs [o ls | 0 | 8 ] 
6 


无 条 件 跳 转 到 由 寄存 器 rs 指定 的 指令 。 
A. 10. 10 ”陷阱 指令 











等 于 陷阱 
teq rs, rt 0 rs rt 0 Ox34 
6 5 5 10 6 
如 果 寄 存 器 rs 的 值 等 于 寄存 器 rt 的 值 ， 引 发 陷阱 异常 。 
等 于 立即 数 陷阱 





teqi rs, imm | Ls oOxc | imm | 


16 
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如 果 寄 存 器 rs 的 值 等 于 符号 扩展 值 
不 等 于 陷阱 


imm， 引 发 陷阱 异常 。 














O | rs rt | 0 Ox36 
5 5 10 


如 果 寄 存 器 rs 的 值 不 等 于 寄存 器 rt 的 值 ， 引 发 陷阱 异常 。 
不 等 于 立即 数 陷 阱 





teq rs, rt 






































i 站 TS Oxe | imm 

teqi rs, imm 
6 5 5 16 

如 果 寄 存 器 rs 的 值 不 等 于 符号 扩展 值 一 一 imm， 引 发 陷阱 异常 。 
大 于 等 于 陷阱 
EPE 0 rs rt 0 Ox30 
9 6 5 5 10 6 
大 于 等 于 无 符号 数 陷阱 
ee [o le jr fo Ox31 




















6 5 $5 10 6 
如 果 寄 存 器 rs 的 值 大 于 或 等 于 寄存 器 rt 的 值 ， 引 发 陷阱 异常 。 
大 于 等 于 立即 数 陷阱 

















| : 1 | |8 | imm 
tgei rs, imm 
6 5 5 16 
大 于 等 于 无 符号 立即 数 陷阱 














rs 9 imm 
5 5 16 





tgeiu rs, imm | | 
6 














如 果 寄 存 器 rs 的 值 大 于 等 于 符号 扩展 值 一 一 imm， 引 发 陷阱 异常 。 
小 于 陷阱 
Eb 0 | rs rt 0 Ox32 
6 5 5 10 6 
小 于 无 符号 数 陷阱 
re 隐 [rs |r lo Ox33 




















5 5 10 6 


如 果 寄 存 器 rs 的 值 小 于 寄存 器 rt 的 值 ， 引 发 陷阱 异常 。 
小 于 立即 数 陷阱 











t1ti rs, imm [1 [re [a |imm | 
6 5 5 16 

小 于 无 符号 立即 数 陷 阱 

tltiu rs, imm | I | b | imm | 








5 16 


如 果 寄 存 器 rs 的 值 小 于 符号 扩展 值 





imm， 引 发 陷阱 异常 。 


A. 10. 11 取 数 指令 








取 地 址 

1a rdest, address 伪 指 令 

将 计算 的 地 址 一 一 不 是 地 址 中 的 内 容 一 一 保存 到 寄存 器 rdest 中 。 
取 字 节 





1b rt, address 





| ox2o | rs | rt | offset | 
6 5 5 16 
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取 字 节 (无 符号 ) 
lbu rt, address De ee ly 此 [an | 


将 地 址 address 中 的 字 节 内 容 存 和 寄存 器 rt 中 ， 字 节 由 lb 符号 扩展 ， 而 不 是 由 1bu。 
取 半 字 


1 站 | 了 rt | offset | 
四 5 5 16 

取 半 字 (无 符号 ) 

hu we, sddress [gs [mm [re [omet | 
6 


将 地 址 address 中 16 位 数值 ( 半 字 ) 存 人 寄存 器 rt 中 ， 半 字 由 1h 符号 扩展 ， 而 不 是 
由 lhu。 
取 字 


lw rt, address [ox23 | rs | Tt | Offset | 
6 16 


将 地 址 address 中 32 位 数值 ( 字 ) 存 人 寄存 器 rt 中 。 
协 处 理 器 -1 取 字 


























1wc1 ft, address 有 | rs | rt ee | 


将 地 址 address 中 的 字 以 浮 点 单元 的 形式 存 和 寄存 器 ft 中 。 








取 左 半 字 

lw] rt, address Ox22 | rs rt Offset 
6 5 5 16 

取 右 半 字 


lwr rt, address 
将 可 能 非 对 齐 地 址 address 中 值 的 左 ( 右 ) 半 字 存 人 寄存 器 rt 中 。 


取 双 字 

1d rdest, address 伪 指 令 

将 地 址 address 对 应 的 64 位 数值 存 人 寄存 器 rdest 和 rdest +1 中 。 
非 对 齐 地 址 中 取 半 字 

ulh rdest，address 伪 指 令 

非 对 齐 地 址 中 取 半 字 (无 符号 ) 

ulhu rdest, address 伪 指 令 


将 可 能 非 对 齐 地 址 address 中 16 位 数值 ( 半 字 ) 存 人 寄存 器 rdest 中 ， 半 字 由 ulh 符号 
扩展 ， 而 不 是 由 ulhu。 

非 对 齐 地 址 中 取 字 

ulw rdest, address 伪 指 令 

将 可 能 非 对 齐 地 址 address 中 32 位 数值 ( 字 ) 存 人 寄存 器 rdest 中 。 

链接 取 


11 rt, address 0x30 Offset 


将 address 中 32 位 数值 存 入 寄存 器 rt 中 ， 并且 开 始 执行 原子 读 一 修改 一 写 操作 。 
该 操作 由 条 件 存 指令 (sc) 来 完成 ， 但 如 果 其 他 处 理 器 对 包含 有 被 取 字 的 块 进行 写 操 
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作 时 ， 该 操作 将 失败 。 由 于 SPIM 不 能 模拟 多 处 理 器 ， 因 而 条 件 存 操作 总 是 可 以 成 功 执 
行 的 。 


A. 10. 12 保存 指令 
存 字 节 


sb rt, address 


将 寄存 器 rt 的 低 字 节 保存 到 地 址 中 。 
存 半 字 


sh rt, address 


A-68 将 寄存 器 zt 的 低 16 位 值 ( 半 字 ) 保存 到 地 址 address 中 。 


存 字 
su rt, nidress (2b [ms [i | oreet 
16 


将 寄存 器 zt 中 的 字 保存 到 地 址 address 中 。 











Ox28 | rs rt | Offset 














ee | [a omet | 























协 处 理 器 1 存 字 
swcl| ft, address OxS L's | ft | Offset | 
5 16 
将 浮 点 协 处 理 器 中 寄存 器 ft 中 的 值 以 浮 点 类 型 存 信 地址 address 中 。 
协 处 理 器 1 存 双 字 











Ox3d rs | 代 | Offset 





sdcl1 ft, address 


将 浮 点 协 处 理 器 中 寄存 器 ft 和 ft +1 中 的 数值 以 浮 点 类 型 存 人 地 址 address 中 。 寄 存 器 
ft 必须 偶数 化 。 
存 左 半 字 








swl rt, address 
存 右 半 字 
swr rt, address 


将 寄存 器 zt 让 的 在 Sy 半 字 保存 到 可 能 非 对 齐 地 址 address 中 。 





| Ox2a | rs rt Offset | 
6 5 5 16 











| Ox2e | rs rt Offset | 





存 双 字 
sd rsrc, address 伪 指 令 
将 寄存 器 rsrc 和 rsrc +1 中 的 64 位 数值 保存 到 地 址 address 中 。 
非 对 齐 地 址 中 存 半 字 
ush rsrc, address 伪 指 令 
将 寄存 器 rsrc 中 的 低 16 位 ( 半 字 ) 保存 到 可 能 的 非 对 齐 地 址 address 中 。 
非 对 齐 地 址 中 存 字 


usw rsrc，address 伪 指 令 
将 寄存 器 rsrc 中 的 字 保 存 到 可 能 的 非 对 齐 地 址 address 中 。 
条 件 存 


sc rt, address 











| ox38 | rs | rt | ofrset | 
6 5 5 16 


将 寄存 器 rt 中 的 32 位 数值 ( 字 ) 存 人 内 存 地 址 address 中 ， 并 完成 原子 读 一 修改 一 写 操 
作 。 如 果 原 子 操作 成 功 执行 ， 内 存 中 的 字 被 修改 ， 寄 存 器 rt 的 值 设置 为 1。 如果 由 于 其 他 处 


理 器 对 包含 地 址 字 的 块 进行 写 操作 而 导致 原子 操作 失败 ， 该 指令 不 能 修改 内 存 ， 并 将 寄存 器 . 


rt 的 值 设置 为 0。 由 于 SPIM 不 能 模拟 多 处 理 器 ， 因 而 该 指令 总 是 可 以 成 功 执行 的 。 
A. 10. 13 ”数据 传送 指令 








传送 指令 

move rdest, rsrc 伪 指 令 

将 寄存 器 rsrc 中 的 数值 传送 到 寄存 器 rdest 中 。 

从 hi 寄存 器 传送 

mfhi rd 0 0 rd | 0 Ox10 
6 10 5 5 6 

从 lo 寄存 器 传送 

mflo rd Lo To [ra [oo Tox2| 





乘法 和 除法 单元 将 处 理 的 结果 存 人 hi 和 lo 这 两 个 额外 的 寄存 器 中 。 这 些 指 令 向 (从 ) 
这 些 寄存 器 中 传送 数据 。 乘 、 除 、 取 余 伪 指令 像 使 用 通用 寄存 器 那样 使 用 这 些 单元 ， 并 在 计算 
结束 后 传送 结果 。 

将 寄存 器 hi (1o) 中 的 数值 传送 到 寄存 器 rd 中 。 

传送 至 hi 寄存 器 


mthi rs | 0 | rs | 0 | ox | 

6 
传送 至 lo 寄存 器 
| o [em Le 0 | oea | 


将 寄存 器 rs 的 值 传送 至 hi iY 寄存 器 。 
从 协 处 理 器 0 中 传送 


mfc0 rt, rd Ox10 o |" ln lo | 
6 5 5 5 11 

从 协 处 理 器 1 中 传送 

We ts EE 站 


协 处 理 器 有 它们 自己 的 寄存 器 集合 。 这些 指令 在 协 处 理 器 的 寄存 器 和 CPU 寄存 器 之 间 传 
送 数据 。 

将 协 处 理 器 中 寄存 器 ra (在 FPU 中 是 fs) 的 值 传送 至 CPU 寄存 器 rt 中 。 浮 点 单元 使 用 
协 处 理 器 1。 

从 协 处 理 器 1 中 传送 双 字 

mfcl.d rdest, frsrcl 伪 指 令 

将 浮 点 寄存 器 frsrcl 和 frsrcl +1 中 的 值 传送 到 CPU 寄存 器 rdest 和 rdest +1 中 。 

传送 到 协 处 理 器 0 


mtco rd, rt [oao14 [上 [rm To 
6 


5 5 5 a 
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传送 到 协 处 理 器 1 


[ox11|4 jr |fs |o | 
6 

















mtel rd, fs 


将 CPU 中 寄存 器 rt 的 值 传送 到 协 处 理 器 的 寄存 器 rd 中 (或 者 FPU 的 寄存 器 fs 中 )。 
非 零 条 件 传送 











rs |rt |rd |oxm 
5 5 11 


如 果 寄 存 器 rt 的 值 不 为 0， 将 寄存 器 rs 中 的 数值 传送 到 寄存 器 ra 中 。 
零 条 件 传送 
0 rs rt rd Oxa 


movz BU， TS, Ft 
6 5 5 5 11 


如 果 寄 存 器 rt 的 值 为 0， 将 寄存 器 rs 中 的 数值 传送 到 寄存 器 ra 中 。 
FP 值 为 假 时 条 件 传送 
0 rs |cc |o lJry |o [1 | 

如 果 FPU 条 件 码 标 记 cc 为 0， 将 CPU 寄存 器 rs 中 的 值 传送 至 寄存 器 rd 中 。 如 果 cc 被 指 
令 忽 略 ， 那么 条 件 码 标记 为 0。 

FP 值 为 真 时 条 件 传送 
0 rs | CC | 1 | rd 0 | 1 | 

如 果 FPU 条 件 码 标记 cc 为 1， 将 CPU 寄存 器 rs 中 的 值 传送 至 寄存 器 rd 中。 如果 cc 被 指 
令 忽略 ， 那 么 条 件 码 标记 为 0。 


A. 10. 14 浮 点 运算 指令 


MIPS 中 有 专门 的 浮 点 协 处 理 器 〈 序 号 为 1) ， 可 以 执行 单 精 度 浮 点 数 (32 位 ) 和 双 精 度 浮 
点 数 (64 位 ) 。 协 处 理 器 有 自己 的 寄存 器 ， 寄 存 器 从 $f0 ~ $f31。 由 于 这 些 寄存 器 位 宽 为 32 
位 ， 因 此 两 个 浮 点 寄存 器 一 起 使 用 可 以 实现 双 精 度 浮 点 数值 。 浮 点 协 处 理 器 还 有 8 个 条 件 码 
(ce) 标记 ， 序 号 0 ~7， 由 比较 指令 设置 ， 分 支 (bclf 和 bclt) 和 条 件 转移 指令 完成 校 验 。 

lwcl、swcl、mtcl 和 mfcl 指令 每 次 能 从 寄存 器 传送 或 者 移出 一 个 字 (32 位 )。1dcl 
和 sdcl 指令 ， 或 者 像 下 面 描述 的 1.s、1.d、s.s 和 s. d 伪 指 令 每 次 能 像 寄 存 器 传送 或 者 移 
出 一 个 双 字 (64 位 ) 。 

在 下 面 的 实际 指令 中 ， 单 精度 指令 的 21 ~ 26 位 为 0， 双 精度 指令 的 21 ~ 26 位 则 为 1。 在 下 
面 的 伪 指令 中 ，fdest 是 浮 点 寄存 器 (如 $f2 ) 。 





movn rd, rs, rt 
































movf rd, rs CC 

















movt rd, Ts; ICGC 





























双 精 度 浮 点 数 的 绝对 值 

bd 
6 5 5 5 5 

单 精 度 浮 点 数 的 绝对 值 

bes fd Fs [lo lo | lw Ts 


计算 寄存 器 fs 中 双 精 度 ( 单 精度 ) 浮 点 数 的 绝对 值 ， 并 将 计算 结果 存 人 寄存 器 fd 中 。 
双 精 度 浮 点 加 法 


add.d fd, fs, ft 








oxi1 [ox11 |f [fs |fa |o 
6 5 5 5 5 6 








单 精度 浮 点 加 法 
oe el SE -EE | 


计算 寄存 器 fs 和 ft 中 双 精度 ( 单 精度 ) 浮 点 数 之 和 ， 并 将 计算 结果 存 人 寄存 器 fd 中 。 
浮 点 数 向 上 舍 入 


ceil.w.d fd, fs 

















ox11 [ox11 |o | f [fs | oxe 
6 5 5 5 5 6 


ceilw.s fd fs [Loat|oaolo [es [io [oxe | 

将 寄存 器 fs 中 双 精 度 〈 单 精度 ) 数值 向 上 舍 人 ， 并 转换 成 32 位 的 定点 值 ， 将 结果 存放 
在 寄存 器 fd 中 。 

双 精 度 相等 比较 


c.eq.d cc fs, ft Lox11 | 0x11 | ft fs ec |0 FC 区 -| 
6 5 5 5 3 2 2 A 
单 精度 相等 比较 


ce i pi ea ue | EE | 多 I |e 


比较 寄存 器 fs 和 这 中 双 精度 ( 单 精度 ) 浮 点 数 是 否 相等 ， 如 果 相 等 ， 将 浮 点 条 件 标记 
位 ee 设置 为 1。 如 果 cc 被 忽略 ， 条 件 码 标记 为 0。 



































双 精 度 小 于 等 于 比较 

Cedece fr [Lodtlodtlt [fs [ce [o Tre Toxe 
二 ' 6 5 5 5 3 2 2 4 
单 精度 小 于 等 于 比较 





c.le.s ce fs, ft ous [own [nT [eo [a |re [owe] 


将 寄存 器 fs 和 ft 中 双 精度 ( 单 精度 ) 浮 点 数 进行 比较 ， 如 果 fs 中 的 数值 小 于 等 于 ft 
中 的 数值 ， 将 浮 点 条 件 标记 位 cc 设置 为 1。 如 果 ce 被 忽略 ,条件 码 标记 为 0。 
双 精 度 小 于 比较 


Giltsd ce TS: Tt Ox11 | 0x11 | ft | fs | ee | o | FC | oxe 
6 5 5 5 3 2 2 4 


单 精度 小 于 比较 
Cao],s EC fi, ft Ox11 Ox10 人 t oe Ee J a 


5 5 


将 寄存 器 fs 和 ft 中 双 精度 ( 单 精 度 ) 浮 点 数 进行 比较 ， 如 果 fs 中 的 数值 小 于 ft 中 的 
数值 ， 将 浮 点 条 件 标 记 位 cc 设置 为 1。 如 果 cc 被 忽略 ， 条 件 码 标记 为 0。 
单 精度 到 双 精 度 的 转换 


evt.d.s fd, fs Ox11 Ox10 0 
6 5 5 5 6 


5 
整 型 到 双 精度 的 转换 
cvtdwfd fs [x14 [ox4 lo | 全 [i |ox2l 
6 5 5 5 5 6 


将 寄存 器 fs 中 的 单 精度 浮 点 数 或 者 整 型 数 转换 成 双 精 度 ( 单 精 度 ) 浮 点 数 ， 并 存 人 寄存 
器 fd 中 。 
双 精 度 到 单 精度 的 转换 


cvt.s.d fd, fs Ox11 | 0x11 2 SS 二 
6 5 
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整 型 到 单 精度 的 转换 


[oxi11 | ol4 |o fs |fd | ox20 














cvt.s.w fd, fs 





5 5 5 


将 寄存 器 fs 中 的 双 精度 浮 点 数 或 者 整 型 数 转 换 成 单 精度 浮 点 数 ， 并 存 人 寄存 器 fd 中 。 
双 精 度 到 整 型 的 转换 


| ox11 | ox11 | 0 
6 





| fs |fd | ox24 
5 5 5 5 6 


cvt.w.d fd, fs 





单 精度 到 整 型 的 转换 


是 oxi0 | 0 | fs 了 二 
5 5 5 


将 寄存 器 fs 中 的 双 精度 浮 点 数 或 者 单 精度 肖 点 数 转 换 成 整 型 数 ， 并 存 人 寄存 器 fd 中 。 
双 精 度 浮 点 除法 


div.d fd, fs, ft 
单 精度 浮 点 除法 


diVas $d fs fi 




















EVE ,Was Td T's 








Ox11 | Ox11 |ft |fs | 人 fg 




















Ox11 | 0x10 |f |fs |fd |3 
5 5 5 


将 寄存 器 fs 和 ft 中 的 双 精 度 〈 单 精度 ) 浮 点 数 相 除 ， 并 将 计算 结果 存 人 寄存 器 fd 中 。 
浮 点 数 向 下 舍 入 


floor.w.d fd, fs 














ox11 | 0x11 | 0 |fs [fd | ox 
5 5 5 5 6 




















ploor ns tg, i [EU oao|lo [ts | 他 [ou 


将 寄存 器 fs 中 的 双 精 度 ( 单 精度 ) 数值 向 下 舍 人 ， 并 将 结果 存放 在 寄存 器 fa 中 。 
取 双 精度 浮 点 数 





1.d fdest, address 伪 指 令 
取 单 精度 浮 点 数 
1.s fdest, address 伪 指 令 


将 地 址 address 相应 的 双 精 度 ( 单 精度 ) 浮 点 数 存 人 寄存 器 fdest 中 。 
双 精 度 浮 点 数 的 传送 









































vd ra, te Lo |oxit|o ls [ru [se 

3 . 6 5 5 5 5 6 
单 精 度 浮 点 数 的 传送 
ee [oolo [fs |fa 16 

6 5 5 5 5 6 
将 寄存 器 fs 中 的 双 精 度 ( 单 精度 ) 浮 点 数 传送 到 寄存 器 fd 中 。 
条 件 为 假 时 双 精 度 浮 点 数 传送 
movf.d fd, fs, cc Ox11 | i Ce 0 | fs | fd Ox11 
5 2 5 上 6 

条 件 为 假 时 单 精度 浮 点 数 传送 
movf .s fd, fs, cc Ol | QQ | Ce 9 | I i Ox14 

















2 


如 果 条 件 码 标记 cc 为 0， 将 寄存 器 fs 中 的 双 精度 ( 单 精度 ) 浮 点 数 传送 到 寄存 器 fd 中 。 
如 果 cc 被 忽略 ， 条 件 码 标记 为 0。 
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条 件 为 真 时 双 精 度 浮 点 数 传送 

movt.d fd, fs, cc 和 Ox14 | niE 1 | fs 

条 件 为 真 时 单 精 度 浮 点 数 传送 

RS fd, fs Ce ES | Ox10 | -EE vs | fd | | 

i 

如 果 条 件 码 标记 ce 为 1， 将 寄存 器 fs 中 的 双 精 度 ( 单 精度 ) 浮 点 数 传送 到 寄存 器 fa 中 。 
如 果 ec 被 忽略 ， 条 件 码 标记 为 0。 

非 零 条 件 双 精 度 浮 点 数 传送 

movn.d fd, fs, rt 区 Lo OX kL 人 | fs 区 | ox13 | 

5 5 6 

非 零 条件 单 精度 浮 点 数 传送 

pie 二 Ox11 | Ox10 | rt fs fd Ox13 

如 果 处 理 器 寄存 器 zt 中 的 值 不 等 于 0， 那么 将 寄存 器 fs 中 的 双 精度 单 精度 ) 学 点 数 传 
送 到 寄存 器 fd 中 。 

等 于 零 条 件 双 精度 浮 点 数 传送 

a Lt | Ox11 区 rt [fs [fd |oxt2| 

等 于 零 条 件 单 精 度 浮 点 数 传送 

movz.s fd, fs, rt Ox11 | Ox10 rt fs fd Ox12 

如 果 处 理 器 寄存 器 rt 中 的 值 等 于 0， 那 么 将 寄存 器 fs 中 的 双 精 度 ( 单 精度 ) 浮 点 数 传送 
到 寄存 器 fd 中 。 

双 精 度 浮 点 乘 

mul.d fd, fs, ft ori [oilr [fs [i [2 | 

6 5 5 5 5 6 
单 精度 浮 点 乘 
mul.s fd, fs, ft ft fs fd 2 
5 5 5 5 

将 寄存 器 fs 和 ft 中 的 双 精 度 ( 单 精度 ) 浮 点 数 相 乘 ， 并 将 计算 结果 存 人 寄存 器 fq 中 

对 双 精 度数 求 反 

neqd Fd, Le [ou | 外 [i |7 

， 6 5 5 5 5 6 A-78 


对 单 精度 数 求 反 





neg.s fd. fs [ox11 [or0 lo [rs [fa 17 


对 寄存 器 fs 中 的 双 精度 〈 单 精度 ) 浮 点 数 求 反 ， 并 将 结果 存 人 寄存 器 fd 中 。 
对 浮 点 数 四 合 五 入 


round.w.d fd, fs 











Ox1i1 | Ox11 | 0 fs fd Oxc 
6 5 5 5 5 6 








round.w.s fd, fs [ox11 ox10 | 0 | fd Oxc 
将 寄存 器 fs 中 的 双 精 度 ( 单 精 度 ) 数 四 舍 五 人 ， 转 换 成 32 位 的 定点 数 ， 并 存 人 寄存 器 
fd 中 。 
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对 双 精 度数 求 平方 根 
sqrt.d fd, fs Ox11 | Oxii | © fs fd 4 
6 5 5 5 5 6 
对 单 精度 数 求 平方 根 
Ox11 | Ox10 | 0 fs fd 4 























sqrt.s fd, fs 





5 5 


对 寄存 器 fs 中 的 双 精 度 〈 单 精度 ) 数 求 平方 根 ， 并 存 人 寄存 器 fa 中 。 
保存 双 精 度 浮 点 数 


s.d fdest, address 伪 指 令 
保存 单 精度 浮 点 数 
s.s fdest, address 伪 指 令 


将 寄存 器 fdest 中 的 双 精 度 〈 单 精度 ) 浮 点 数 存 人 地 址 address 中 。 
双 精 度 浮 点 减法 


sub.d fd, fs, ft 
单 精度 浮 点 减法 
Ox11 | oxio |f |fs |fd |1 


sub.s fd, fs, ft 
5 5 5 5 6 


将 寄存 器 fs 和 ft 中 的 双 精 度 ( 单 精度 ) 浮 点 数 相 减 ， 并 将 计算 结果 存 人 寄存 器 fa 中 。 
将 浮 点 数 截取 为 字 





ox11 |ox |ft jfs [fd |1 
6 5 





a 
a 
a 
































ox11 | oxti | o [fs [fd [oxd 
6 5 5 5 5 6 


trunc.w.d fd, fs 




















trunc.w.s fd, fs | ox11 | ox1o | 0 |f [fd [ox 


对 寄存 器 fs 中 的 双 精 度 ( 单 精度 ) 浮 点 数 进行 截取 操作 ， 转 换 成 32 位 定点 数 ， 并 将 结 





果 存 人 寄存 器 fd 中 。 
A. 10. 15 “异常 和 中 断 指令 


异常 返回 
RE | 这 | 0 | oxas | 


将 协 处 理 器 0 的 状态 寄存 器 中 的 EXL 位 设置 为 0， 并 返回 协 处 理 器 0 中 EPC 寄存 器 指向 的 指令 。 
系统 调用 




















0 0 | Oxc | 
syscall 
6 20 6 
寄存 器 $v0 中 保存 了 SPIM 提供 的 系统 调用 的 个 数 〈 见 图 A-9-1) 。 
跳出 
break code | 0 code | Oxd 








产生 异常 码 ， 异 常 1 为 调试 程序 保留 。 
空 操作 





[o To To lo To fo 
5 5 5 5 6 











nop 


不 做 任何 操作 。 
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A. 11 小 结 


用 汇编 语言 进行 程序 设计 需要 程序 员 放 弃 高 级 语言 中 的 一 些 有 益 的 特点 一 一 如 数据 结构 、 
类 型 检查 以 及 控制 结构 一 一 以 获得 对 机 器 执行 指令 的 完全 控制 。 一 些 应 用 的 外 部 约束 ， 如 响应 
时 间 、 程 序 大 小 等 ， 需 要 程序 员 密切 关注 每 条 指令 。 然 而 ， 和 高 级 语言 程序 相 比 ， 这 种 级 别 的 
关注 带 来 的 是 更 长 、 编 写 更 费时 、 更 难 维护 的 汇编 语言 程序 。 

此 外 ， 三 个 趋势 导致 不 必 再 用 汇编 语言 来 编写 程序 。 第 一 个 趋势 是 编译 器 的 改进 。 现 在 ， 
编译 器 生成 的 代码 可 以 与 最 好 的 手工 书写 的 代码 相 媲美 一 -有 时 候 甚至 会 更 好 。 第 二 个 趋势 是 
新 处 理 器 的 速度 不 仅 更 快 ， 而 且 对 于 那些 可 以 同时 执行 多 条 指令 的 处 理 器 ， 手 工 编程 也 变 得 更 
加 困难 。 此 外 ， 现 代 计 算 机 的 快速 发 展 也 支持 高 级 语言 程序 不 再 依赖 单一 的 体系 结构 。 最 后 ， 
我 们 见证 了 日 渐 复杂 的 应 用 趋势 ， 不 仅 有 复杂 的 图 形 界面 , .而 且 还 有 许多 先前 不 曾 遇 见 的 特 
征 。 由 程序 员 组 成 的 团队 合作 开发 的 大 规模 应 用 程序 需要 有 由 高 级 语言 提供 的 模块 化 设计 思想 
和 语义 检查 的 特点 。 


拓展 阅读 


Aho, A., R. Sethi, and J. Ullman [1985]. Compilers: Principles, Techniques, and Tools, Reading, MA: Addison- 
Wesley. 








Slightly dated and lacking in coverage of modern architectures, but still the standard reference on compilers. 


Sweetman, D. [1999]. See MIPS Run, San Francisco, CA: Morgan Kaufmann Publishers. 


A complete, detailed, and engaging introduction to the MIPS instruction set and assembly language program- 
ming on these machines. 


Detailed documentation on the MIPS-32 architecture is available on the Web: 
MIPS32™ Architecture for Programmers Volume I: Introduction to the MIPS32™ Architecture 


(http://mips.com/content/Documentation/MIPSDocumentation/ProcessorArchitecture/ 
ArchitectureProgrammingPublicationsforMIPS32/MD00082-2B-MIPS32INT-AFP-02.00.pdf/ 
getDownload) 


MIPS32™ Architecture for Programmers Volume II: The MIPS32™ Instruction Set 


(http://mips.com/content/Documentation/MIPSDocumentation/ProcessorArchitecture/ 
ArchitectureProgrammingPublicationsforMIPS32/MD00086-2B-MIPS32BIS-AFP-02.00.pdf/getDownload) 


MIPS32™ Architecture for Programmers Volume III: The MIPS32™ Privileged Resource Architecture 


(http://mips.com/content/Documentation/MIPSDocumentation/ProcessorArchitecture/ 
ArchitectureProgrammingPublicationsforMIPS32/MD00090-2B-MIPS32PRA-AFP-02.00.pdf/getDownload) 


A. 12 练习 题 


A.1 [5] <A.5>A.5 节 描述 了 在 大 多 数 MIPS 系统 中 ， 内 存 是 如 何 划分 的 。 请 采用 其 他 的 方法 ， 实 现 
相同 结果 。 

A.2 [20] <A.6> 用 更 少 的 指令 重 写 fact 程序 。 

A.3 [5] <A.7> 用 户 程序 使 用 寄存 器 $k0 或 $kl 时 总 是 安全 的 么 ? 

A.4 [25] <A.7>A.7 节 介绍 了 一 种 非常 简单 的 异常 处 理 代 码 。 这 种 处 理 方式 的 一 个 严重 的 缺陷 在 于 
它 需 要 很 长 的 时 间 来 使 中 断 无 效 。 这 意味 着 快速 WO 设备 发 出 的 中 断 会 丢失 。 请 编写 更 好 的 可 中 
断 的 异常 处 理 程序 ， 能 尽快 使 中 断 有 效 。 

A.5 [15] <A.7> 简 单 的 异常 处 理 程序 总 是 跳 回 异常 之 后 的 指令 。 这 种 操作 运行 良好 ， 除 非 导致 异常 
的 指令 处 在 分 支 指令 的 延迟 槽 中 。 这 种 情况 下 ， 下 一 条 指令 即 是 转移 的 目标 。 编 写 更 好 的 程序 ， 
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A. 10 


使 用 EPC 寄存 器 来 决定 异常 之 后 执行 哪 一 条 指令 。 

[5] <A.9 > 使 用 SPIM， 编 写 、 验 证 一 个 加 法 器 程序 : 重复 读 人 整数 并 对 它们 相 加 求 和 。 当 输入 
为 0 时 停止 程序 ， 并 输出 累加 和 。 使 用 A. 9 节 介 绍 的 SPIM 系统 调用 。 

[5] <A.9 > 使 用 SPIM， 编 写 、 验 证 一 个 程序 : 读 入 三 个 整数 ， 对 两 个 最 大 的 数 求 和 并 输出 结果 。 
使 用 A.9 节 介 绍 的 SPIM 系统 调用 。 你 可 以 任意 中 断 程序 。 

[5] <A.9 > 使 用 SPIM， 编 写 、 验 证 一 个 程序 : 使 用 SPIM 的 系统 调用 读 和 人 一 个 正 整数 。 如 果 整 数 
为 非 正 ， 程 序 终止 ， 输 出 “Invalid Entry”; 否则 程序 输出 整数 每 个 数字 的 名 称 ， 以 空格 分 隔 。 例 
如 ， 如 果 用 户 输入 “728”， 输 出 “Seven Two Eight”。 

[25] <A.9 > 用 MIPS 汇编 语言 编写 程序 并 验证 : 计算 并 输出 前 100 个 素数 。 如 果 除 了 1 和 之 外 
没有 哪个 数 能 整除 n， 那么 n 为 素数 。 你 应 该 实现 两 个 例 程 : 

。 test prime(n) 如 果 是 素数 ， 返 回 1; 如 果 不 是 ， 则 返回 0。 

。 main() 循环 测试 每 个 整数 是 否 为 素数 ， 并 输出 前 100 个 素数 。 

在 SPIM 上 验证 你 的 程序 。 

[10] <A.6，A.9 > 使 用 SPIM， 编 写 、 验 证 一 个 递归 程序 ,来 解决 汉 诺 塔 问题 〈 需 要 使 用 堆栈 帧 
来 支持 递归 ) 。 汉 诺 塔 有 三 根 杆子 (1、2 和 3) 和 个 盘子 (nm 是 可 变 的 ， 典 型 的 数值 在 1 ~8 之 
间 )。 盘 子 1 比 盘子 2 小 ,盘子 2 比 盘 子 3 小 ， 以 此 类 推 ， 盘 子 "” 是 最 大 的 。 最 开始 ， 所 有 的 盘子 
都 在 杆子 1 上 ， 盘 子 在 最 下 面 ， 上 面 是 盘子 n-1， 以 此 类 推 ,盘子 1 在 最 上 面 。 目标 是 将 所 有 
的 盘子 移 到 杆子 2 上 。 每 次 只 能 移动 一 个 盘子 ， 也 就 是 说 ， 任 何 一 个 杆子 最 上 面 的 盘子 只 能 移 到 
另外 两 个 杆子 的 顶端 。 此 外 ， 还 不 能 将 大 盘子 放置 在 小 盘子 上 。 

下 面 的 C 程序 会 对 你 用 汇编 语言 编程 有 所 帮助 。 


/* move n smallest disks from start to finish using 
extra */ 





void hanoi(int n, int start, int finish, int extra)i{ 
if(n != 0){ 
hanoi(n-1, start, extra, finish); 
print_string(“Move disk”); 
prilint. ThntCmn}s 
print_string("from peg”) ; 
print_int(start); 
print_string("“to peg”) ; 
print_int(finish); 
print_string(“.\n”); 
hanoi(tn=1, extra, finish, start):s 
} 
} 
main(){ 
int mn; 
print_string(“Enter number of disks>"); 
n= read_int(); 
hanoi tm, 1, 2 3)s 
return 0; 
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逻辑 设计 基础 





我 一 直 很 喜 鸡 这 个 词 : 市 和 尔 。 
一 一 CUCrude Shannon, TEEE Spectrum, April 1992 
(Shannon 的 硕士 论文 表明 ， 由 George Book 在 19 世纪 和 初 发 明 的 代数 可 以 代表 电器 开 
呈 的 工作 原理 。) 


B. 1 引言 


本 附录 仅 对 逻辑 设计 的 基本 原理 进行 了 讨论 ， 无 法 替代 逻辑 设计 的 课程 ， 也 不 能 保证 你 可 
以 设计 出 可 以 很 好 工作 的 逻辑 系统 。 如 果 你 很 少 接触 ， 甚 至 从 没 接触 过 逻辑 设计 ， 本 附录 将 提 
供 足 够 的 背景 知识 ， 让 你 了 解 本 书 中 提 到 的 内 容 。 另 外 ， 本 附录 将 帮助 你 了 解 计算 机 内 部 的 实 
现 机 制 。 如 果 你 对 该 部 分 内 容 感 兴趣 ， 附 录 后 面 的 参考 文献 还 可 以 为 你 提供 更 多 的 信息 。 

B. 2 节 介 绍 了 逻辑 块 中 的 基本 单元 : 门 。B. 3 节 中 使 用 这 些 逻辑 块 来 构建 一 个 不 含 存储 器 
的 简单 组 合 逻 辑 。 如 果 你 对 逻辑 电路 或 数字 电路 有 所 了 解 ， 前 两 部 分 将 不 会 感到 陌生 。B.5 节 
讲述 了 怎样 利用 B. 2 节 和 B. 3 节 的 概念 设计 一 个 MIPS 处 理 器 的 ALU。B. 6 节 讲 述 了 怎样 设计 
一 个 快速 加 法 器 ， 如 果 对 该 部 分 不 感 兴趣 ， 直 接 跳 过 即 可 。B. 7 节 简单 介绍 了 时 钟 ， 如 果 想 知 
道 存 储 器 如 何 工 作 ， 必 须 对 时 钟 有 所 了 解 。B. 8 节 介 绍 了 存储 器 的 基本 单元 ，B. 9 节 介 绍 了 随机 
存 取 存 储 器 ， 这 两 部 分 不 仅 介绍 了 存储 器 的 特点 ， 而 且 讲述 了 构建 多 层 存 储 体系 的 背景 知识 。 
中 了 解 存储 器 的 特点 对 如 何 使 用 存储 器 有 很 大 帮助 ， 详 细 内 容 在 第 4 章 介绍 ， 构 建 存储 体系 在 第 
5 章 进行 介绍 。B. 10 节 介绍 了 如 何 设计 和 使 用 时 序 逻 辑 块 一 有限 状 态 机 。 如 果 你 要 掌握 附录 D 
的 内 容 ， 那 么 你 需要 了 解 B.2 ~ B. 10 节 所 有 的 内 容 。 如 果 你 只 要 掌握 第 4 章 的 知识 ， 则 可 以 直接 
跳 到 B. 11 节 。B. 11 节 是 为 需要 深入 了 解 时 钟 方法 和 时 序 的 人 准备 的 ， 这 一 部 分 介绍 了 边缘 触发 
时 钟 的 工作 原理 ， 引 入 了 另 一 种 时 钟 策略 ， 并 且 介绍 了 异步 输入 的 同步 问题 。 

在 附录 B. 4 节 中 ， 介 绍 了 怎样 用 Verilog 来 描述 逻辑 电路 。 同 时 ， 在 CD 中 可 以 找到 更 加 广 
泛 和 完整 的 Verilog 教程 。 


B. 2 门 、 真 值 表 和 逻辑 方程 式 


现代 计算 机 的 内 部 电路 为 数字 电路 。 数 字 电 路 仅 工 作 在 两 个 电压 : 高 电压 和 低 电 压 。 其 他 
所 有 的 电压 值 均 为 瞬时 值 ， 出 现在 电压 值 间 的 过 渡 阶 段 。( 正 如 后 面 要 讲 到 的 ， 数字 电路 设计 
中 可 能 存在 一 个 陷阱 ， 当 无 法 确定 电压 值 属于 高 电压 还 是 低 电压 时 ， 则 对 该 电压 进行 采样 。) 
计算 机 采用 二 进 制 数 也 是 促使 其 采用 数字 电路 进行 设计 的 一 个 重要 原因 ， 因 为 二 进 制 可 以 和 数 
字 电 路 中 的 底层 抽象 相 匹配 。 在 不 同 的 逻辑 大 家 庭 中 ， 两 个 电压 值 闻 的 关系 和 对 应 的 值 均 有 所 
不 同 。 因 此 ， 我 们 不 去 谈论 电压 值 的 高 低 ， 而 只 需 考虑 电压 值 对 应 的 逻辑 值 信号 0 和 1。 其 中 
逻辑 1 也 称 为 “ 真 ”或 有 效 信号 (asserted signal) ， 逻 辑 0 也 称 为 “ 假 ” 人 
ed signal) 。 逻 辑 0/1 也 称 为 170 的 补 逻 辑 值 或 反 逻 辑 值 。 


有 效 信号 ; 信号 为 逻辑 1 或 真 。 
忆 ”无 效 信 号 ; 信号 为 逻辑 0 或 假 。 
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根据 是 否 包含 存储 器 件 ， 逻 辑 电 路 被 分 为 两 大 类 。 不 包含 存储 器 件 的 逻辑 电路 称 为 组 合 逻 
辑 ， 组 合 逻 辑 的 输出 只 取决 于 当前 的 输入 。 而 包含 有 存储 器 件 的 电路 中 ,输出 不 仅 与 当前 的 输 
人 和信 有关 ， 而 且 与 存储 器 件 中 存储 的 值 有 关 ， 将 存储 器 件 中 存储 器 的 值 称 为 逻辑 电路 的 状态 。 在 
B.2 节 和 B.3 节 中 ,我们 只 介绍 组 合 逻 辑 (combinational logic)。 在 B. 8 节 中 介绍 完 各 种 存储 元 
件 后 ,我 们 再 介绍 包含 电路 状态 的 时 序 逻 辑 ( sequential logic)。 


他” 组合 逻辑 : 组 合 逻 辑 不 包含 存储 元 件 ， 因 此 当 输 入 相同 的 数据 时 ， 将 得 到 相同 的 输出 。 
”时 序 逻 辑 : 时 序 逻 辑 包 含有 存储 元 件 ， 因 此 输出 取决 于 输入 和 当前 存储 元 件 的 内 容 。 


B. 2. 1 真 值 表 


由 于 组 合 逻辑 不 包含 存储 元 件 ， 因 此 可 以 对 每 一 个 可 能 的 输入 集 ， 定 义 对 应 的 输出 值 ， 通 
过 这 种 方法 就 可 以 指定 一 个 逻辑 电路 。 通 常 我 们 用 真 值 表 来 描述 组 合 逻辑 。 对 一 个 包含 n 个 输 
入 的 组 合 电路 来 说 ， 有 2" 种 可 能 的 输入 组 合 ， DU 真 值 表 中 的 每 一 项 都 指定 
了 特定 输入 对 应 的 所 有 输出 的 数值 。 


邯 | 例题 . 真 值 表 

假设 一 个 逻辑 函数 包含 三 个 输入 4、B、C 和 三 个 输出 刀 、 已 、F。 函数 的 定义 如 下 : 如 果 
有 一 个 输入 为 真 ， 则 D 为 真 ; 如果 有 两 个 输入 为 真 ， 则 已 为 真 ; 如 果 三 个 输入 都 为 真 ， 则 下 
为 真 。 请 写 出 该 函数 的 真 值 表 。 
团 答案 


真 值 表 包 含 2 = 8 项 。 如 下 所 示 : 











© | 


亚 | 一 | 号 | 已 | 一 | 一 | 号 | 号 





























二 | 王 | 一 | 一 | 号 | 已 | 
一 | 口 | 一 | 品 | 一 | 口 |=| | 本 














口 


真 值 表 可 以 描述 任意 的 组 合 逻 辑 函数 ， 但 是 真 值 表 中 的 项 数 随 着 输入 的 增加 将 变 得 很 大 ， 
同时 真 值 表 也 不 容易 理解 。 有 时 ,我们 需要 构造 一 个 逻辑 函数 ， 其 中 很 多 输入 组 合 均 为 0， 此 
时 我 们 可 以 只 描述 非 0 的 输出 组 合 。 这 种 方法 在 第 4 章 和 附录 D 中 使 用 。 


B. 2.2 布尔 代数 


描述 组 合 逻 辑 函 数 的 另 一 种 方法 是 使 用 逻辑 方程 式 ， 这 可 以 通过 使 用 布尔 代数 〈 以 19 世 

纪 数 学 家 布尔 的 名 字 命 名 ) 来 完成 。 在 布尔 代数 中 ， 所 有 的 变量 均 取 值 为 0 或 1， 在 典型 的 表 
达 式 中 ， 包 含 如 下 三 种 操作 符 : 

。 或 操作 可 以 记 为 + ,例如 4 +B。 或 操作 的 结果 如 下 : 如 果 任 意 一 个 变量 为 1， 则 或 操 

作 的 结果 为 1。 由 于 任 一 变量 为 1， 或 操作 结果 都 为 1， 因 此 或 操作 也 被 称 为 逻辑 和 。 
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e 与 操作 可 以 记 为 ,例如 4. B。 只 有 当 所 有 输入 均 为 1 时 ， 与 操作 的 结果 才 为 1。 由 
于 所 有 输入 为 1 时 ， 与 操作 结果 才 为 1， 因 此 与 操作 也 称 为 远 辑 乘 。 

。 非 操 作 可 以 记 为 4， 如 果 输 入 为 0， 则 非 操 作 的 结果 为 1。 非 操作 将 会 对 逻辑 值 进行 取 
反 操 作 (如 果 输 入 为 0， 则 输出 为 1， 反 之 亦 然 ) 。 

布尔 代数 中 有 几 条 定律 ， 对 逻辑 方程 式 的 操作 很 有 帮助 。 

同一 定律 : 4+0 = 4, 4:.1 =4 

0 和 1 定律 :4 +1 =1,4.0=0 

互补 定律 : A+A=1, 4.4=0 

交换 律 : 4+B =B+4, 4. 有 B =B.4 

结合 律 : 4 +(B+C)=(4+B)+C, A4.(B. C)= (4. 5B)，C 

分 配 律 : 4.(B+C) =(4.B)+(4.C)，4+(B.C)=(4+B) (A+C) 
另外 ,还 有 两 条 很 有 用 的 定律 ， 称 为 德 . 摩根 定律 ， 德 . 摩根 定律 将 在 练习 题 中 进行 深入 

介绍 。 
任何 逻辑 方程 式 组 都 可 以 写成 一 系列 的 逻辑 等 式 ， 其 中 等 式 的 左边 为 输出 ， 等 式 右边 为 变 

量 及 上 述 三 种 操作 符 的 组 合 。 


邯 例题 , 逻辑 等 式 
请 写 出 上 个 例题 中 逻辑 函数 刀 、 已 、 严 的 逻辑 等 式 。 


团 答案 
D 的 逻辑 等 式 为 : 
D=A+B+C 
F 的 逻辑 等 式 为 : 
F=A.:B.:C 


逻辑 函数 需要 一 点 技巧 。 将 其 分 为 两 部 分 : EF 肯定 为 真 的 情况 (三 个 输入 中 的 两 个 必须 

为 真 ), EE 肯定 不 会 为 真 的 情况 (三 个 输入 都 不 能 为 真 )。 由 此 的 逻辑 等 式 可 以 描述 为 : 
E=((A4.B)+(A.:C)+(B:.C))+(4.B8B.C) 

我 们 也 可 以 通过 另 一 种 方法 得 到 的 逻辑 等 式 。 考 虑 到 只 有 当 两 个 输入 为 真 时 ,EE 才 为 
真 ， 因 此 我 们 可 以 将 五 写成 三 个 式 子 的 或 操作 ， 其 中 每 个 式 子 为 两 个 输入 为 真 ， 一 个 输入 为 假 
的 与 操作 ， 如 下 所 示 : _ 

E=(A.B.C)+(A4.C.B)+(B.C.A4) 

可 以 在 练习 题 中 验证 两 个 逻辑 等 式 是 等 价 的 。 

在 Verilog 中 ， 我 们 通过 赋值 声明 来 描述 组 合 逻 辑 ， 这 部 分 将 在 B. 4 节 中 进行 描述 。 我 们 
可 以 通过 Verilog 中 的 异 或 操作 来 定义 E; assign E=(A^B^C)* (A+tB+C)* (A* B 
* C ) ， 这 也 是 一 种 表示 逻辑 函数 的 方法 。 刀 和 下 的 定义 就 更 加 简单 了 ， 与 C 语言 的 差别 不 
大 ， 如 下 所 示 : D = A IB |C,F =A&BEC。o 口 





B.2.3 门 


逻辑 块 是 由 可 以 实现 基本 逻辑 功能 的 门 (gate) 构成 的 。 例 如 ， 一 个 与 门 可 以 实现 与 操 
作 ， 或 门 可 以 实现 或 操作 。 因 为 与 和 或 操作 是 可 交换 、 可 结合 的 操作 ， 因 此 与 门 、 或 门 可 以 有 
多 种 输入 ， 输 出 为 所 有 输入 的 与 、 或 操作 。 非 操作 通过 一 个 反 向 器 实现 ， 反 向 器 只 有 一 个 输 
人 。 这 三 种 逻辑 门 的 标准 表示 形式 如 图 B-2-1 所 示 。 


[B-7 | 


[B-8] 
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多 ” 门 : 实现 基本 逻辑 功能 的 硬件 设备 ， 比 如 与 门 、 或 门 。 


在 描述 非 门 时 ， 更 常见 的 形式 并 不 是 明确 的 画 出 反 向 器 ， 而 是 在 需要 取 反 的 输入 或 输出 中 
加 一 个 “气泡 ”( 即 小 圆圈 ) 。 如 图 B-2-2 所 示 ， 对 于 逻辑 操作 4 + B， 左 侧 为 使 用 反 向 器 的 表 
示 形 式 ， 右 侧 为 使 用 “气泡 ”的 表示 形式 。 

任何 逻辑 函数 都 可 以 通过 与 门 、 或 门 和 非 门 来 实现 ， 有 几 个 练习 题 要 求 使 用 门 来 实现 一 些 
通用 逻辑 函数 。 下 一 节 中 ,我 们 将 介绍 如 何 通过 这 些 门 来 实现 任意 的 逻辑 函数 。 


= 


图 B-2-1 从 左 到 右 ， 依 次 为 与 门 、 或 门 、 非 门 ” 图 B-2-2 用 逻辑 门 实现 4+8， 左 侧 的 输入 输出 





的 标准 表示 形式 。 每 个 门 的 左 侧 信号 均 明 确 地 画 出 了 反 向 器 ， 右 侧 则 使 用 
为 输入 信号 ， 右 侧 信 号 为 输出 信号 。 了 “气泡 ”。 该 逻辑 函数 可 以 简化 为 
与 门 和 或 门 有 两 个 输入 信号 ， 非 门 只 4 .万 ,或 使 用 Verilog 来 表示 A & ~B 

有 一 个 输入 信号 


事实 上 ， 所 有 逻辑 函数 都 可 以 通过 单一 的 门 来 实现 ， 只 要 这 种 门 是 反 相 的 。 两 种 常见 的 门 
为 或 非 门 (NOR gate) 和 与 非 门 (NAND gate) ， 其 中 或 非 门 是 对 或 门 的 输出 进行 取 反 操作 ， 与 
非 门 是 对 与 门 的 输出 进行 取 反 操作 。 或 非 门 和 与 非 门 称 为 万 能 门 ， 因 为 任何 逻辑 函数 都 可 以 通 
过 其 中 的 一 种 门 来 实现 。 下 面 的 练习 题 将 进一步 探索 这 种 观点 。 


”或 非 门 : 或 门 的 输出 进行 取 反 。 
多 ”与 非 门 : 与 门 的 输出 进行 取 反 。 


车 | 小 测验 
下 面 的 两 个 逻辑 表达 式 等 价 吗 ? 如果 不 等 价 ， 证 明 它们 不 等 价 。 
e。 (4.B.C)+(4.C.B)+(B.C.4) 
e。 DB.(4.C+C.4) 


B. 3 组 合 逻 辑 


本 节 将 介绍 经 常用 到 的 较 大 的 逻辑 块 。 同 时 ,我 们 将 讨论 结构 化 逻辑 块 的 设计 ， 这 些 逻 辑 
块 可 以 通过 一 种 翻译 程序 ， 自 动 由 逻辑 等 式 或 真 值 表 来 实现 。 最 后 ,我 们 将 讨论 逻辑 块 组 成 的 
阵列 。 


B. 3.1 译 码 器 


在 设计 大 型 逻辑 单元 中 ， 译 码 器 (decoder) 是 经 常用 到 的 一 种 逻辑 块 。 最 常见 的 译 码 
器 有 了 个 输入 ，2 个 输出 ， 对 每 一 种 输入 组 合 ， 只 有 一 个 输出 信号 置 为 1。 译 码 器 将 输入 的 
! 位 数据 转化 为 该 数据 对 应 的 二 进 制 形式 。 译 码 器 的 输出 常 通过 数字 来 标记 ， 如 Out0、 
Outl…Out2" - 1。 如 果 输 入 数据 对 应 的 值 为 i， 则 0uti 被 置 为 1， 其 他 所 有 的 输出 信号 均 为 
0。 图 B-3-1 为 一 个 3 位 的 译 码 器 及 对 应 的 真 值 表 。 由 于 这 种 译 码 器 有 3 个 输入 和 8 个 输出 ， 
因此 也 成 为 3-8 译 码 器 。 相 对 于 译 码 器 ， 编 码 器 的 功能 正好 相反 ， 编 码 器 有 2 个 输入 和 半 个 
输出 。 


忆 ” 译 码 器 : 拥有 nn 位 输入 和 2" 输 出 的 逻辑 块 。 对 每 一 种 输入 组 合 ， 只 有 一 个 输出 信号 为 真 。 
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0 
on Erni 
Out2 
Out3 
Out4 
Onut5 
Out6 
Onut7 


a) 3 位 译 码 器 b) 3 位 译 码 器 的 真 值 表 


图 B-3-1 一 个 3 位 译 码 器 包含 3 个 输入 (12、11、10) 和 8 个 输出 (Out0 ~ Out ) 。 正 如 真 值 表 所 
示 ， 只 有 与 输入 信号 对 应 的 二 进 制 数据 相关 的 输出 被 置 为 1。 译 码 器 输入 端的 3 表示 输入 
信号 为 3 位 位 宽 





3 
一 \>| 译 码 器 











B. 3.2 多 路 选择 器 


第 4 章 中 ， 我 们 经 常用 到 一 个 逻辑 块 : 多 路 选择 器 。 多 路 选择 器 之 所 以 称 为 选择 器 ， 是 因 
为 它 的 输出 来 自 输入 信号 中 的 某 一 个 ， 而 到 底 来 自 哪 一 个 输入 信号 由 控制 信号 决定 。 下 面 考虑 
两 输入 多 路 选择 器 。 图 B-3-2 中 ， 左 侧 包含 三 个 输入 : 两 个 数据 信号 和 一 个 选择 (控制 ) 信号 
(selector ( control) value) 。 其 中 控制 信号 决定 哪 一 个 输入 信和 号 将 成 为 输出 信号 。 图 B-3-2 右 侧 
的 两 输入 多 路 选择 器 对 应 的 逻辑 函数 为 C=(4 :5)+(B:5)。 


2 选择 信号 ; 也 称 为 控制 信号 。 控 制 信号 用 来 选择 某 一 个 输入 信号 ， 来 作为 多 路 选择 器 的 输 
出 信号 。 


| | 


图 B-3-2 ” 左 侧 为 两 输入 的 多 路 选择 器 ， 右 侧 为 对 应 的 实现 。 多 路 选择 器 包含 两 个 输入 (4 和 
B) ,分 别 标 记 为 0 和 1， 并 且 包 含 一 个 选择 输入 信号 (5S) 和 一 个 输出 信号 (C)。 用 
Verilog 来 实现 多 路 选择 器 需要 较 多 的 工作 量 ， 尤 其 是 当 输入 信号 数量 大 于 2 时 ， 我 们 
将 在 B. 4 节 中 进行 介绍 


多 路 选择 器 可 以 有 任意 数量 的 输入 信号 。 如 果 多 路 选择 器 只 有 两 个 输入 信号 ， 则 当 
选择 信号 为 1 时 ， 选 择 其 中 的 一 个 输入 作为 输出 ; 如 果 选 择 信号 为 0， 则 选择 另 一 个 输入 
作为 输出 。 如 果 有 个 数据 输入 ， 则 需要 「 log,n 1 个 选择 信号 ， 此 时 的 多 路 选择 器 包含 
三 个 部 分 : 

1) 生成 个 信号 的 译 码 器 ， 每 一 个 信号 代表 一 个 不 同 的 输入 信号 。 

2) 个 与 门 阵列 ， 每 个 与 门 都 包含 =” 个 信号 中 的 一 个 。 

3) 一 个 较 大 的 或 门 ， 用 来 将 与 门 的 输出 进行 合并 。 

为 了 将 输入 信和 号 与 控制 信号 联系 起 来 ， 我 们 经 常 将 输入 数据 用 数字 进行 标记 〈 如 0， 








B-10 
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1,2，…, n-1)， 同 时 将 控制 信号 转化 为 二 进 制 形式 。 有 时 ， 我们 也 使 用 未 解码 的 选择 
信号。 

在 Verilog 中 ， 通 过 半 语 句 可 以 很 简单 地 实现 多 路 选择 器 。 对 于 大 型 的 多 路 选择 器 ， 使 用 
case 语句 将 更 加 方便 ， 但 是 在 对 组 合 逻辑 进行 综合 的 时 候 ， 需 要 十 分 小 心 。 


B. 3.3 两 级 逻辑 和 PLA 


如 上 一 节 所 述 ， 任 何 逻 辑 函 数 都 可 以 通过 与 、 或 和 非 门 实 现 。 事 实 上 ， 还 有 更 加 规整 的 实 
现 方法 。 任 意 的 逻辑 函数 都 可 以 描述 成 规范 形式 ， 即 输入 信和 号 要 么 为 真 ， 要 么 为 假 ， 并 且 只 有 
两 级 门 : 与 门 和 或 门 ， 如 果 需 要 ， 可 以 在 最 后 的 输出 中 加 一 个 反 向 器 。 这 类 表示 法 称 为 两 级 表 
示 法 ， 它 有 两 种 形式 : 乘积 和 (sum of products) 、 和 项 积 。 乘 积 和 表示 所 有 乘积 ( 即 与 操作 ) 
的 逻辑 和 (〈 即 或 操作 ) ; 和 项 积 正 好 相反 。 在 前 面 的 例子 中 ， 输 出 有 两 种 形式 : 

E=((A.B)+(A.:C)+(B.C)).(A4.B.C) 





和 Sn Es 7 
Ee (A-BC 4 CB (B.C. AY 
其 中 第 二 个 表达 形式 即 为 乘积 和 : 它 包含 两 级 逻辑 ， 并 且 非 操作 只 发 生 在 单个 变量 上 面 。 
第 一 个 表达 形式 包含 三 级 逻辑 。 


号 ”乘积 和 : 一 种 逻辑 表达 形式 ， 即 对 所 有 乘积 (由 与 操作 实现 ) 进行 逻辑 求 和 (或 操作 )。 


贸 】 精 解 ”我们 也 可 以 将 已 写成 和 项 积 的 形式 : 
盏 = (A+B4EC) (AC+4+B) (B+C+A) 
为 了 得 到 这 种 表达 形式 ， 需 要 使 用 德 * 摩根 定律 ， 德 * 摩根 定律 在 练习 题 中 讨论 。 


在 这 本 书 里 ， 我 们 使 用 乘积 和 的 形式 。 显 而 易 见 ， 对 于 任何 逻辑 函数 来 说 ， 我 们 都 可 以 从 
它 的 真 值 表 中 构造 出 乘积 和 的 形式 。 真 值 表 中 该 函数 为 1 的 表 项 对 应 一 个 乘积 项 。 乘 积 项 为 所 
有 输入 的 乘积 或 输入 取 反 后 的 乘积 ， 是 否 取 反 取决 于 真 值 表 中 该 变量 对 应 的 信号 是 1 还 是 0。 
通过 一 个 例子 可 以 更 容易 理解 。 





图 | 例题 乘积 和 
请 写 出 下 面 真 值 表 中 D 的 乘积 和 的 表达 式 。 












































i 入 入 输出 

[4 8 0 
0 0 0 0 
0 0 1 1 
0 1 0 1 
0 1 1 0 
1 0 0 1 
1 0 1 0 
1 1 0 0 
1 1 1 1 

外 | 答案 


由 于 真 值 表 中 有 4 个 表 项 对 应 的 刀 为 1， 因 此 总 共有 4 个 乘积 项 ， 如 下 : 
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由 此 ， 我 们 可 以 写 出 D 的 乘积 项 和 的 形式 : 


~ 人 | | 
外 | | 
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D-=4.8.C+4.B8.C+4 
需要 注意 到 真 值 表 中 只 有 DD 为 1 的 表 项 ， 才 能 生成 对 应 的 乘积 项 。 
可 以 利用 真 值 表 和 两 级 门 表 示 方 法 之 间 的 关系 ， 为 任何 逻辑 函数 生成 一 个 门 级 的 实现 。 一 
个 真 值 表 对 应 的 逻辑 函数 集 包 含 多 个 输出 列 ， 正 如 在 B. 2 节 中 看 到 的 一 样 。 每 一 个 输出 列 都 对 
应 一 个 不 同 的 逻辑 函数 ， 都 可 以 直接 从 真 值 表 中 构造 出 来 。 
乘积 和 的 表示 方法 对 应 一 种 常见 的 称 为 可 编程 逻辑 阵列 (Programmable Logic Array，PLA) 
的 结构 化 逻辑 实现 方法 。PLA 包含 一 组 输入 、 输 入 取 反 的 信号 (通过 反 向 器 来 实现 ) 和 两 级 
逻辑 。 第 一 个 逻辑 是 一 个 与 门 阵 列 ， 用 来 生成 乘积 项 (product term) (也 称 为 最 小 项 〈mint- 
erm) ) ， 每 一 个 乘积 项 都 由 输入 信和 号 或 对 应 的 反 向 信号 构成 。 第 二 级 为 一 个 或 门 阵列 ， 每 一 个 
或 门 都 生成 任意 数量 的 乘积 项 对 应 的 和 。 图 B-3-3 显示 了 PLA 的 基本 构成 。 口 


”可 编程 逻辑 阵列 (PLA): 是 一 种 结构 化 逻辑 单元 。PLA 由 一 组 输入 信号 及 反 向 信号 和 一 
个 两 级 逻辑 构成 。 其 中 第 一 级 逻辑 用 来 生成 输入 信号 和 反 向 信号 的 乘积 项 ， 第 二 级 逻辑 用 
来 生成 这 些 乘积 项 的 和 。 因 此 ，PLA 的 逻辑 功能 为 实现 乘积 项 的 和 。 

2 最 小 项 : 也 称 为 乘积 项 。 由 一 组 输入 信号 通过 与 操作 形成 。 乘 积 项 形成 了 PLA 的 第 一 级 


逻辑 。 
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通过 多 个 输入 和 多 个 输出 ， 一 个 PLA 可 以 直接 实现 真 值 表 的 功能 ， 其 中 真 值 表 看 作 


一 组 逻辑 函数 。 真 值 表 中 输出 为 真 时 ， 就 产生 
一 个 乘积 项 ，PLA 中 就 需要 对 应 地 生成 一 行 。 
真 值 表 中 每 一 个 输出 都 与 或 门 阵列 中 潜在 的 某 
一 行 对 应 。 或 门 的 数量 与 真 值 表 中 输出 为 真 的 
数量 相对 应 。 如 图 B-3-3 所 示 ，PLA 的 大 小 等 于 
与 门 阵列 和 或 门 阵列 的 大 小 之 和 。 通 过 观察 
图 B-3-3 可 以 发 现 ， 与 门 阵列 的 大 小 等 于 输入 信 
号 的 数量 乘 以 不 同 乘积 项 的 数量 ， 或 门 阵列 的 大 
小 等 于 输出 信和 号 的 数量 乘 以 乘积 项 的 数量 。 

PLA 有 两 个 特点 ， 这 两 个 特点 使 PLA 成 为 实 
现 逻 辑 函 数组 的 有 效 方法 。 首 先 ， 真 值 表 的 每 一 
项 中 ， 至 少 一 个 输出 为 真 时 ， 才 需要 对 应 的 逻辑 
门 。 其 次 ,在 PLA 中 ,不 同 的 乘积 项 只 对 应 一 个 
输入 ， 即 使 该 乘积 项 被 多 个 输出 使 用 也 不 例外 。 
下 面 让 我 们 来 看 一 个 例子 。 


著 ] 例题 * PLA 





输出 


图 B-3-3 ”PLA 由 一 个 与 门 阵列 和 紧 跟 的 或 
门 阵列 构成 。 与 门 阵列 的 每 一 个 
输入 都 是 若干 输入 信号 或 其 反 向 
信号 的 乘积 。 或 门 阵列 的 每 一 个 
输入 为 若干 数量 的 乘积 项 的 和 


考虑 B.2 节 中 定义 的 一 组 逻辑 函数 。 写 出 D、E、F 的 PLA 实现 方法 。 


卫 答案 


这 是 我 们 前 面 构 造 的 真 值 表 。 
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由 于 真 值 表 中 至 少 有 一 个 输出 为 1 的 表 项 有 7 个 ， 因 此 与 门 阵列 将 有 7 列 。 与 门 阵列 中 行 
数 为 3 〈 因 为 共有 3 个 输入 信号 ) ， 同 时 或 门 阵列 中 也 将 包含 3 行 ( 因为 共有 3 个 输出 信号 ) 。 
图 B-3-4 为 最 终 的 PLA， 其 中 的 乘积 项 与 真 值 表 中 自 项 向 下 的 表 项 相对 应 。 口 


图 B-3-4 将 所 有 的 门 都 画 了 出 来 ， 事 实 上 ， 设 计 者 常常 只 画 出 与 门 和 或 门 的 位 置 。 当 乘 
积 项 对 应 的 信号 线 与 输入 信和 号 或 输出 信号 交叉 时 ， 需 要 使 用 点 来 标注 。 图 B-3-4 中 的 PLA 使 
用 这 种 方法 时 ， 结 果 如 图 B-3-5 所 示 。 当 PLA 被 创建 时 ，PLA 的 功能 就 固定 下 来 了 。 也 存在 
类 似 PLA 结构 的 逻辑 块 ， 称 为 PALs， 当 设计 者 需要 时 ， 可 以 通过 电子 编程 的 方式 来 使 用 
PALs。 





图 B-3-4 例题 中 逻辑 函数 对 应 的 PLA 实现 结果 


B. 3.4 ROM 


另 一 类 可 以 实现 一 组 逻辑 函数 的 结构 化 逻辑 叫 作 只 读 存储 器 〈Read- Only Memory，ROM ) 。 
ROM 被 称 为 存储 器 是 因为 它 包 含 一 组 可 以 进行 读 操 作 的 位 置 ， 然而， 这 些 位 置 的 内 容 是 固定 的 ， 
一 般 在 制造 的 时 候 就 固定 下 来 。 除 此 之 外 ， 还 有 一 种 可 编程 只 读 存 储 器 (Programmable ROM ， 
PROM) ， 这 类 存储 器 可 以 电 写 和 人。 还 存在 可 擦 除 可 编程 只 读 存 储 器 ， 这 类 设备 需要 一 个 缓慢 的 擦 
除 过 程 ， 过 程 中 需要 使 用 紫外 线 ， 因 此 除了 设计 和 调试 外 ,这 类 设备 只 用 做 只 读 存储 器 。 
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与 平面 (与 阵列 ) 





图 B-3-5 在 矩阵 中 ， 用 点 来 表示 乘积 项 及 这 些 乘 积 项 之 和 的 PLA 结构 。 这 里 ， 在 门 的 选择 上 ,不 是 用 
反 相 器 ， 而 是 所 有 输入 信号 以 实际 值 及 其 补 码 形式 连接 到 与 阵列 的 每 个 输入 上 。 与 阵列 中 的 
一 个 点 表示 该 输入 ， 或 其 相反 值 在 该 乘积 项 中 存在 。 或 阵列 中 的 一 个 点 表示 相应 的 乘积 项 出 
现在 相应 的 输出 上 


忆 “只 读 存 储 器 (ROM) : 一 类 存储 器 ， 它 的 数据 在 制造 时 就 固定 下 来 ， 之 后 其 数据 只 能 被 
读 。ROM 作为 结构 化 逻辑 ， 可 以 将 逻辑 函数 组 中 的 项 作为 输入 地 址 、 将 输出 作为 存储 器 
中 的 一 个 字 ， 以 此 来 实现 逻辑 函数 组 。 

”可 编程 ROM (PROM) : 一 类 只 读 存 储 器 ， 但 是 当 设 计 者 知道 其 中 的 数据 时 ， 可 以 对 其 进 
行 编程 。 


ROM 包含 一 组 地 址 输入 线 和 一 组 输出 。ROM 可 寻 址 的 人口 数量 决定 了 地 址 线 的 数量 : 如 
果 ROM 包含 2" 个 可 寻 址 人 口 ( 称 为 高 度 )， 则 需要 m 条 地 址 线 。 每 一 个 可 寻 址 人 口 包含 的 二 
进 制 数量 等 于 输出 信号 数量 ， 有 时 也 成 为 ROM 的 宽度 。ROM 中 总 的 二 进 制 数量 等 于 高 度 乘 以 
宽度 。 有 时 将 高 度 和 宽度 统称 为 ROM 的 形状 。 

ROM 可 以 直接 通过 真 值 表 对 逻辑 方程 式 组 进行 编码 。 例 如 ， 对 于 有 m 个 输入 的 nn 个 方程 
组 来 说 ，ROM 需要 m 条 地 址 线 (2" 个 人 口 ) ， 其 中 每 一 个 人 口 都 为 ”位 宽 。 真 值 表 中 的 输入 代 
表 着 ROM 中 地 址 的 人 口 ， 同 时 ， 真 值 表 中 的 输出 代表 着 ROM 中 存储 的 内 容 。 当 真 值 表 中 的 输 
人 序列 构成 一 个 二 进 制 序列 时 (正如 我 们 展示 的 所 有 真 值 表 一 样 )，ROM 的 输出 也 将 是 有 序 
的 。 在 B. 3 节 的 例子 中 ,共有 3 个 输入 和 3 个 输出 ， 因 此 ROM 有 2 =8 个 人 口 地 址 ， 每 一 个 
入 口 包含 3 位 二 进 制 数据 。ROM 中 入 口 对 应 的 数据 量 可 直接 由 上 面 例子 中 的 真 值 表 中 的 输出 
得 到 。 

ROM 和 PLA 间 联 系 很 密切 。ROM 是 完全 译 码 的 : 对 每 一 个 可 能 的 输入 组 合 ， 都 会 输出 一 
个 字 。 而 PLA 是 部 分 译 码 的 。 这 意味 着 ROM 将 比 PLA 包含 更 多 的 人 口 。 如 前 面 的 真 值 表 所 
示 ，ROM 包含 了 所 有 可 能 的 8 个 输入 人口， 而 PLA 只 包含 了 7 个 乘积 项 。 随 着 输入 数量 的 增 
加 ，ROM 中 的 和 人口 数量 呈 指 数 增 长 。 与 此 相反 ， 对 实际 的 逻辑 函数 来 说 ， 乘 积 项 数量 的 增长 
很 缓慢 (参考 附录 D 中 的 例子 ) 。ROM 和 PLA 间 的 这 种 差异 ， 使 得 PLA 成 为 实现 组 合 逻辑 函 
数 更 有 效 的 方法 。ROM 的 优势 在 于 ， 当 输入 、 输 出 数量 匹配 时 ，ROM 可 以 实现 任意 的 逻辑 函 
数 。 这 种 优势 使 得 当 人 逻辑 函数 发 生变 化 时 ，ROM 中 的 内 容 很 容易 就 随 之 变化 ， 原 因 在 于 ROM 
的 大 小 不 需要 改变 。 

除了 ROM 和 PLA 外 ,现代 的 逻辑 综合 系统 也 将 小 的 组 合 逻 辑 块 转化 为 一 系列 门 的 组 合 ， 


加 
Es 
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自动 完成 布局 布线 。 尽 管 这 些 门 的 组 合 占 面 积 较 大 , 但 面积 的 开销 仍然 比 果 板 的 结构 化 ROM 
和 PLA 的 面积 开销 要 小 ， 因 此 成 为 逻辑 实现 的 首选 方法 。 

对 于 设计 全 定制 或 半 定 制 的 集成 电路 来 说 ， 更 常用 的 方法 是 使 用 现场 可 编程 器 件 ， 我 们 将 
在 B. 12 节 中 讨论 这 些 器 件 。 


B. 3.5 无 关 项 


在 实现 组 合 逻 辑 时 ， 有 时 我 们 并 不 在 乎 某 些 输出 的 值 ， 其 原因 可 能 是 另 一 个 输出 为 真 ， 或 
者 是 输入 组 合 的 子 集 决 定 了 输出 的 值 。 我 们 称 这 种 情况 为 无 关 项 。 因 为 可 以 简化 逻辑 函数 的 实 
现 ， 因 此 无 关 项 很 重要 。 

无 关 项 包含 两 种 类 型 : 无 关 项 的 输出 和 无 关 项 的 输入 ， 两 者 都 在 真 值 表 中 体现 出 来 。 当 我 
们 对 一 些 输 入 组 合 产生 的 输出 不 太 关 心 时 ， 就 产生 了 无 关 项 的 输出 。 这 类 输出 在 真 值 表 中 以 X 
代替 。 当 一 个 输出 对 于 一 些 输入 的 组 合 来 说 属于 无 关 项 时 ， 设 计 者 或 逻辑 优化 程序 就 可 以 自由 
地 对 这 些 输入 产生 的 输出 赋值 为 1 或 0。 当 输出 只 取决 于 一 部 分 输入 时 ， 就 产生 了 无 关 项 的 输 
入 ， 在 真 值 表 中 也 记 为 X。 


四 | 例题 ,无 关 项 

考虑 一 个 包含 4、B、C 三 个 输入 的 逻辑 函数 ， 其 定义 如 下 : 

。 不 管 B 的 值 为 多 少 ,只 要 4 或 C 为 真 ， 则 输出 为 真 。 

。 不 管 C 的 值 为 多 少 ， 只 要 4 或 B 为 真 ， 则 输出 E 为 真 。 

。 虽然 D 入 都 为 真 时 ， 我 们 不 关心 的 值 ， 但 是 如 果 三 个 输入 中 一 个 为 真 ， 则 输出 F 

为 真 。 

请 写 出 这 个 逻辑 函数 完整 的 真 值 表 和 带 有 无 关 项 时 的 真 值 表 。 对 每 一 个 真 值 表 ，PLA 各 需 

要 多 少 个 乘积 项 ? 






































匈 ] 答案 
下 面 是 不 带 无 关 项 的 完整 的 真 值 表 : 
输入 Se 
[| 
0 0 0 0 | 0 0 
0 0 1 1 0 1 
0 1 0 下 0 1 1 
0 1 1 1 1 0 
1 0 0 1 | 1 1 
1 0 1 1 1 0 
1 1 0 1 1 0 
1 1 1 1 1 0 











这 个 真 值 表 对 应 的 PLA 需要 7 个 乘积 项 。 带 有 无 关 项 的 输出 时 的 真 值 表 如 下 : 


内 和 
Wr 
0 
0 
0 


0 0 0 0 
1 1 0 1 
0 0 1 1 





















































简化 后 的 真 值 表 对 应 的 PLA 只 需要 4 个 最 小 项 ， 或 者 可 以 采用 一 个 两 输入 的 与 门 和 三 个 或 
门 来 实现 〈 其 中 两 个 或 门 包含 三 个 输入 ， 另 一 个 包含 两 个 输入 ) 。 而 原始 的 真 值 表 需 要 7 个 最 
小 项 ， 可 能 需要 4 个 与 门 。 口 


逻辑 最 小 化 对 获得 高 效 的 逻辑 实现 很 重要 。 对 任 一 逻辑 进行 手工 最 小 化 的 一 个 有 效 工 具 
是 卡 诺 图 。 卡 诺 图 将 真 值 表 以 图 的 形式 表示 出 来 ， 因 此 可 以 很 容易 看 出 哪些 乘积 项 可 以 进 
行 合并 。 但 是 ， 由 于 卡 诺 图 的 尺寸 和 其 复杂 性 ， 对 实际 逻辑 函数 进行 手工 最 小 化 是 不 太 可 
能 的 。 幸 运 的 是 ， 逻 辑 最 小 化 的 过 程 已 经 高 度 机 械 化 ， 可 以 通过 设计 工具 来 完成 。 在 最 小 
化 的 过 程 中 ,设计 工具 利用 了 无 关 项 的 这 个 优势 ， 因 此 ,识别 出 哪些 是 无 关 项 很 重要 。 附 
录 最 后 的 参考 文献 中 提供 了 更 多 的 内 容 ， 包 括 逻 辑 最 小 化 、 卡 诺 图 和 人 逻 辑 最 小 化 算法 背后 
的 原理 。 


B. 3.6 逻辑 单元 阵列 


对 数据 的 组 合 逻 辑 操作 中 ， 很 多 操作 一 次 需要 处 理 整个 字 (32 位 二 进 制 数 ) 。 因 此 我 们 常 
常 构建 一 个 逻辑 单元 的 阵列 ， 这 可 以 通过 将 一 个 操作 作用 在 整个 输入 的 集合 中 来 实现 。 大 多 数 
时 候 ， 我们 在 机 器 内 部 需要 在 一 对 总 线 中 进行 选择 。 总 线 (bus) 是 若干 数据 线 的 集合 ， 这 些 
数据 线 被 当做 单一 的 逻辑 信号 对 待 。( 名 词 “总线 ” 也 用 来 表示 一 组 由 多 个 信号 源 共享 使 用 的 
信和 号 线 。) 


2 总线 : 在 遇 辑 设计 中 ， 由 多 个 数据 线 构 成 的 一 条 遇 辑 线 ， 这 些 数 据 线 被 同时 执行 ; 被 多 个 
源 使 用 的 一 组 信号 线 也 可 以 称 为 总 线 。 


例如 ， 在 MIPS 指令 集中 ， 指 令 运行 的 结果 被 写 人 寄存 器 中 ， 而 寄存 器 中 的 数据 可 能 有 一 
个 或 两 个 来 源 。 此 时 ， 需 要 用 一 个 多 路 选择 器 来 决定 哪 一 个 总 线 上 的 数据 (32 位 ) 将 被 写 人 
寄存 器 中 。 前 面 提 到 的 1 位 多 路 选择 器 ， 在 这 里 需要 被 复制 32 次 。 

在 画图 时 ， 为 了 区 分 信号 线 是 总 线 还 是 一 条 1 位 的 信号 线 ， 我 们 在 信号 线 上 画 一 条 较 粗 的 
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线 来 表示 总 线 。 大 多 数 总 线 都 是 32 位 宽 ， 如 果 不 是 32 位 宽 ， 就 明确 地 写 出 其 位 宽 。 当 一 个 逻 
辑 单 元 的 输入 和 输出 为 总 线 时 ， 意味 
着 逻辑 单元 必须 被 复制 足够 的 次 数 来 
满足 输入 的 位 宽 。 图 B-3-6 显示 了 一 
个 多 路 选择 器 ， 这 个 多 路 选择 器 在 一 
对 32 位 宽 的 总 线 间 进行 选择 。 同 时 ， 
图 中 也 显示 了 该 多 路 选择 器 是 如 何 通 
过 1 位 多 路 选择 器 实现 的 。 有 时 ， 我 
们 需要 构造 逻辑 单元 的 阵列 ， 其 中 有 
些 元 件 的 输入 来 自 于 前 面 元 件 的 输 
出 。 例如， 多 位 宽 的 ALU 就 是 这 样 
构造 的 。 在 这 一 类 例子 中 ， 我们 必须 





明确 地 显示 出 如 何 构造 更 宽 的 阵列 ， 选择 信号 
因为 此 时 阵列 中 的 单个 元 件 并 不 是 独 
立 存 在 的 。 正 如 32 位 宽 多 路 选择 器 。 A 壮 > 
的 例子 中 显示 的 那样 。 u l32\ ec 
团 | 小 测验 和 

对 于 奇偶 性 校 验 函 数 来 说 ， 它 的 a) 一 个 32 位 宽 的 2? 选 ] 选 择 器 。b) 32 位 宽 的 选择 器 实际 上 是 一 个 
输出 取决 于 输入 中 1 的 数量 。 对 于 偶 包含 32 个 1 位 宽 的 选择 器 的 陈列 
校 验 函 数 来 说 ， 如 果 输 入 中 1 的 数量 图 B-3-6 为 了 在 两 个 32 位 宽 的 输入 中 进行 选择 ， 多 路 
为 偶数 ， 则 输出 1。 假设 用 ROM 来 实 选择 器 需要 被 复制 32 次 。 需 要 注意 ， 对 所 有 
现 包 含 4 位 输入 的 偶 校 验 函 数 ，4、 32 个 1 位 多 路 选择 器 来 说 ， 只 使 用 一 位 的 数 
B、C、 中 哪 一 个 可 以 表示 ROM 中 据 选 择 信号 
的 内 容 ? 
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B.4 使 用 硬件 描述 语言 


当前 ， 处 理 器 和 相关 硬件 系统 的 设计 都 是 通过 硬件 描述 语言 ( hardware description lan- 
guage) 完成 的 。 硬 件 描述 语言 有 两 个 作用 。 首 先 ， 它 提供 了 对 硬件 的 一 种 抽象 描述 ， 通 过 这 
种 描述 可 以 对 设计 进行 模拟 和 调试 。 其 次 ， 借 助 于 综合 工具 和 硬件 汇编 工具 ， 硬 件 描述 语言 可 
以 被 编译 成 硬件 的 实现 方法 。 


”硬件 描述 语言 : 一 种 描述 硬件 的 编程 语言 ， 硬 件 描述 语言 用 来 模拟 硬件 设计 ， 同 时 也 作为 
综合 工具 的 输入 来 生成 具体 的 硬件 。 


本 节 中 ,我们 将 介绍 硬件 描述 语言 Verilog， 并 介绍 如 何 使 用 Verilog 来 进行 组 合 逻 辑 的 设 
计 。 在 附录 的 其 他 部 分 中 ， 我 们 将 Verilog 的 使 用 扩展 到 时 序 逻 辑 的 设计 上 。 在 网 站 上 第 4 章 
选读 部 分 中 ， 我 们 使 用 Verilog 来 描述 处 理 器 的 实现 。 在 网 站 上 第 5 章 的 选读 部 分 中 ， 我 们 使 
用 System Verilog 来 描述 cache 控制 器 的 实现 。System Verilog 为 Verilog 增加 了 一 些 结构 和 其 他 
有 用 的 特征 。 

Verilog 是 两 种 基本 硬件 描述 语言 中 的 一 种 ， 另 一 种 是 VHDL。Verilog 基于 C 语言 ， 相 对 基 
于 Ada 的 VHDL 在 工业 界 的 使 用 更 加 频繁 。 对 C 语言 比较 熟悉 的 读者 会 发 现 ， 附 录 中 我 们 用 到 
的 Verilog 基本 原理 会 很 容易 理解 。 如 果 对 C 语言 的 语法 有 所 了 解 的 话 ， 对 VHDL 比较 熟悉 的 
读者 将 会 发 现 Verilog 的 概念 很 简单 。 


巴 Verilog: 两 种 常用 硬件 描述 语言 中 的 一 种 。 
允 VHDL: 两 种 常用 硬件 描述 语言 中 的 一 种 。 


Verilog 可 以 将 数字 系统 在 行为 级 和 结构 级 进行 描述 。 行 为 级 (behavioral specification) 描 
述 方法 描述 了 数字 系统 的 功能 特性 。 结 构 级 〈 structural specification) 描述 方法 描述 了 数字 系统 
的 详细 组 织 ， 并 且 结 构 级 描述 常 采用 层次 描述 。 结 构 级 描述 可 以 在 基本 元 件 的 层次 结构 方面 描 
述 硬件 系统 ， 比 如 在 门 级 和 开关 级 。 因 此 ， 我 们 可 以 使 用 Verilog 来 描述 真 值 表 的 具体 内 容 和 
最 后 章节 的 数据 通路 。 


Q 行为 级 描述 : 描述 一 个 数字 系统 在 功能 方面 是 怎么 工作 的 。 
”结构 级 描述 : 描述 一 个 数字 系统 是 如 何 通过 基本 元 件 的 层次 化 连接 进行 组 织 的 。 


随 着 硬件 综合 工具 (hardware synthesis tool) 的 出 现 ， 大 多 数 设 计 者 都 使 用 Verilog 或 
VHDL， 只 对 数据 通路 进行 结构 级 描述 ， 之 后 通过 逻辑 综合 从 行为 级 描述 中 生成 控制 系统 。 男 
外 ， 大 多 数 CAD 系统 都 提供 了 广泛 的 标准 元 件 库 ， 如 ALU、 多 路 选择 器 、 寄 存 器 、 存 储 器 和 
可 编程 逻辑 块 ， 当 然 也 包含 基本 的 门 电路 。 


”硬件 综合 工具 : 一 种 计算 机 辅助 设计 软件 ， 该 软件 可 以 通过 数字 系统 的 行为 级 描述 来 生成 
门 级 的 设计 结果 。 


利用 库 和 逻辑 综合 进行 设计 时 ， 如 果 想 得 到 可 接受 的 结果 ， 需 要 着 眼 于 最 终 的 综合 及 所 需 
的 输出 ， 并 据 此 来 写 描述 语言 。 对 于 我 们 简单 的 设计 来 说 ,需要 考虑 的 就 是 搞 清 楚 哪 些 需 要 用 
组 合 逻 辑 来 实现 、 哪 些 需 要 用 时 序 逻 辑 来 实现 。 在 本 节 及 剩余 附录 中 的 大 部 分 例子 中 ， 写 Ver 
ilog 代码 时 ， 我 们 需要 将 最 终 的 综合 放 在 脑海 里 。 
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B. 4. 1 Verilog 的 数据 类 型 和 操作 类 型 


Verilog 包含 两 种 基本 数据 类 型 : 

1) wire 表示 一 个 组 合 信号。 

2) reg (寄存 器 ) 存储 一 个 数据 ， 该 数据 随 着 时 间 的 推移 而 变化 。 尽 管 实际 实现 中 reg 常 
常 与 一 个 寄存 器 相关 连 ， 但 并 不 一 定 必须 这 样 做 。 


二 Wire: 在 Verilog 中 表示 一 个 组 合 逻 辑 信 吕 , 
多。 reg: 在 Verilog 中 表示 一 个 寄存 器 。 


假设 有 一 个 wire 或 reg， 命名 为 X， 当 X 为 32 位 宽 时 ， 可 以 这 样 声明 : reg[31:0] XxX 或 
wire[ 31 :0] X， 通 过 最 后 的 索引 0 来 划 定 最 低 有 效 位 。 由 于 经 常 访问 reg 或 wire 的 子 字段 ， 
我 们 可 以 通过 [起 始 位 : 结束 位 ] 访问 reg 或 wire 的 一 段 连续 位 ， 其 中 的 起 始 位 和 结束 位 必须 
为 常数 。 

reg 的 一 组 阵列 可 以 用 来 表示 寄存 器 文件 或 存储 器 。 声 明 语句 

reg [31:0] registerfile[0:31] 
声明 了 一 个 类 似 于 MIPS 的 寄存 器 文件 ， 其 中 寄存 器 0 是 第 一 个 寄存 器 。 当 访问 存储 阵列 时 ， 
我 们 可 以 使 用 registerfile [ regnum ] 访问 一 个 数据 ， 与 C 语言 一 样 。 

Verilog 中 reg 或 wire 型 数据 可 能 的 取 值 有 : 

。 0 或 1， 表示 逻 辑 假 或 真 。 

。 X， 表 示 取 值 未 知 ， 所 有 寄存 器 初始 化 数据 、 未 被 连接 的 wire 数据 均 为 X。 

。 Z， 表 示 三 态 门 处 于 高 阻 态 ， 在 该 附录 中 不 对 其 进行 讨论 。 

常量 可 以 被 指定 为 十 进 制 、 二 进 制 、 八 进 制 或 十 六 进 制 。 通 常 我 们 需要 确切 地 知道 一 个 常 
量 包 含 多 少 二 进 制 位 。 我 们 通过 在 常量 前 面 加 一 个 前 绥 来 表示 该 常量 包含 多 少 二 进 制 位 ， 
例如 : 

。 4 'b0100 表示 包含 4 位 二 进 制 常量 的 数据 4， 等 价 于 4” d4。 

。 {A[L31:16] ,BL[15:0]} 创 建 了 一 个 数值 ， 其 中 高 16 位 来 自 A, 低 16 位 来 自 B。 

Verilog 从 C 语言 中 继承 了 一 元 组 和 二 进 制 操作 符 ， 包 括 算术 运算 符 (+，-，*，/)、 
逻辑 运算 符 (&&，| ，~ ) 、 比 较 运算 符 (==,! =，>，<，<=，>=)、 移 位 运算 符 
(<<，>>) 和 (C 语言 的 条 件 运算 符 (使 用 格式 为 condition? exprl:expr2， 当 condi- 
tion 为 真 时 返回 exprl ， 和 否则 返回 expr2 ) 。Verilog 中 增加 了 一 组 逻辑 运算 符 (&，1| ,“)， 
这 类 运算 符 对 操作 数 的 所 有 位 均 进行 逻辑 操作 。 例 如 ，&R 返回 A 中 所 有 位 进行 与 操作 的 结果 。 
^A 返回 A 中 所 有 位 异 或 的 结果 。 


区 | 小 测验 
下 面 的 定义 中 ， 哪 些 定义 了 相同 的 数 什 ? 


1. 8"bimoooo 

2. 8’hF0 

3. 8’d240 

4. {{4{1°b1}},{4{1°’b0}}} 
5. {4'bl,4’b0) 


B. 4. 2 ”Verilog 程序 的 结构 


Verilog 程序 是 由 模块 的 组 合 构成 的 。 这 些 模 块 最 小 可 以 是 一 个 逻辑 门 ， 最 大 可 以 是 一 个 完 
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整 的 系统 。Verilog 中 的 模块 与 C+ + 中 的 类 类 似 , 但 没有 类 那样 强大 的 功能 。 一 个 模块 定义 了 
它 的 输入 和 输出 ， 输 入 和 输出 分 别 对 应 了 模块 与 外 部 进行 连接 时 的 输入 接口 和 输出 接口 。 模 块 
也 可 能 声明 一 些 附加 的 变量 。 一 个 模块 的 主体 有 以 下 几 个 部 分 构成 : 

。 initial 结构 ， 该 结构 对 reg 型 变量 进行 初始 化 。 
连续 赋值 语句 ， 这 类 语句 只 出 现在 组 合 逻 辑 中 。 
always 结构 ， 该 结构 既 可 以 用 在 组 合 逻辑 中 ， 也 可 以 用 在 时 序 逻 辑 中 。 
模块 实例 化 ， 该 结构 用 来 对 已 经 定义 的 模块 进行 实例 化 操作 。 


B. 4. 3 ”Verilog 构造 复杂 的 组 合 逻 辑 


关键 字 assign 表示 连续 赋值 语句 ， 连 续 赋 值 语句 对 应 的 组 合 逻 辑 函数 为 : 输出 被 连续 地 
赋值 ， 并 且 只 要 输入 的 值 发 生变 化 ， 输 出 的 值 也 马上 发 生变 化 。wire 型 变量 只 能 通过 连续 赋值 
语句 进行 赋值 。 通 过 连续 赋值 语句 ， 我 们 可 以 定义 一 个 模块 来 实现 半 加 器 ， 如 图 B-4-1 所 示 。 

使 用 Verilog 来 构造 组 合 罗 辑 时 ， 推 荐 使 用 连续 赋值 语句 。 但 是 ， 当 需要 构造 更 复杂 的 结 
构 时 ， 连 续 赋值 语句 将 变 得 很 笨拙 和 乏 


module half_adder (A,B,Sum,Carry); 





味 。 男 一 种 可 行 方法 是 使 用 模块 中 的 al- input A,B; //two 1-bit inputs 

ways 语句 ， 来 描述 组 合 迎 辑 单元 , 但 是 | 9ss8sn Som 一 A B; /Jsum is A xor?B 
需要 小 心 使 用 。 always 语句 中 人 允许 使 用 本 Carry =A&B;V//Carry is A and B 
. 控制 语句 ， 比 如 if- then- else、case 语句 、 

for 语句 和 repeat 语句 。 这 些 语句 与 C 语言 图 B-4-1 使 用 连续 赋值 语句 定义 的 一 个 

中 的 类 似 ， 只 有 少许 变化 。 半 加 器 Verilog 模块 


always 语言 块 指定 了 一 个 信号 列表 , 语句 块 对 这 些 信号 敏感 (信号 列表 以 @ 开 始 ) 。 如 果 
敏感 信号 列表 中 任 一 信号 发 生变 化 ，always 语句 块 都 将 重新 执行 。 如 果 省 略 了 敏感 信号 列表 ， 
则 always 语句 块 将 一 直 被 不 停 地 重新 执行 。 当 always 语句 块 表示 组 合 逻 辑 时 ， 敏 感 信 号 列表 
” (sensitivity list) 需要 包含 所 有 的 输入 信号 。 如 果 always 语句 块 中 包含 多 条 Verilog 语句 ， 这 些 
语句 将 被 关键 字 begin 和 end 环绕 ， 就 像 C 语言 中 的 | 和 | 。 一 个 always 块 如 下 所 示 : 


always @(1ist of signals that cause reevaluation) begin 
Verilog statements including assignments and other 
control statements end 


3 敏感 信号 列表 : 一 些 信号 的 列表 ， 当 这 些 信号 中 任 一 信号 发 生变 化 时 ，always 块 都 将 重 
新 执行 。 


reg 型 变量 只 能 在 always 块 内 部 进行 赋值 ， 需 要 使 用 过 程 性 赋值 语句 (与 前 面 介绍 的 连续 
赋值 不 同 ) 。 总 共有 两 种 不 同 的 过 程 赋值 语句 。 其 中 操作 符 = 与 C 语言 中 的 类 似 ， 右 侧 语句 计算 
出 结果 ， 并 赋值 给 左 侧 变量 。 而 且 与 C 语言 的 执行 一 致 ， 在 下 一 个 赋值 语句 执行 前 ， 该 赋值 语句 
完成 执行 。 因 此 ， 操 作 符 = 被 称 为 阻塞 性 赋值 (blocking assignment) 。 阻 塞 性 赋值 对 构造 时 序 导 
辑 来 说 很 有 用 ,我们 很 快 就 会 再 次 介绍 它 。 另 一 种 过 程 赋值 语句 为 非 阻塞 赋值 (nonblocking 
assignment) ， 记 为 < = 。 在 always 块 中 的 非 阻 塞 赋值 语句 ， 当 所 有 非 阻塞 赋值 语句 计算 出 右 侧 
的 结果 时 ， 就 立即 赋值 给 对 应 的 左 侧 变 量 。 图 B-4-2 为 4 选 1 多 路 选择 器 的 实现 ， 该 例子 为 使 用 
always 语句 块 实现 的 组 合 逻辑 ， 为 了 简单 化 ,我们 使 用 了 case 语句 。case 语句 与 C 语言 中 的 
switch 语句 类 似 。 图 B-4-3 显示 了 MIPS 中 ALU 的 实现 ， 其 中 也 使 用 了 case 语句 。 


2 阻塞 赋值 :Verilog 中 ， 在 下 一 个 赋值 语句 执行 前 ， 阻 塞 赋值 完成 执行 。 
2 非 阻塞 赋值 一 种 赋值 语句 ， 只 有 计算 出 所 有 非 阻塞 语句 右 侧 结果 时 ， 才 进行 赋值 。 
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由 于 在 always 块 中 只 能 给 reg 型 变量 赋值 ， 如 果 和 希望 使 用 一 个 always 块 描述 组 合 逻辑 ， 则 必 
须 非 常 小 心 ， 以 确保 这 个 reg 变量 不 被 综合 为 一 个 寄存 器 ， 下 面 的 “ 精 解 ” 中 给 出 了 许多 “陷阱 ”。 


module Mult4tol (Inl,In2,In3,In4,Sel,0Out); 
input [31:0] In1，In2。，In3，In43 /four 32-bit inputs 
input [1:0] Sel; //selector signal 
output reg [31:0] Out;// 32-bit output 
always @(Inl, In2, In3, In4, Sel) 
case (Sel) //a 4->1 multiplexor 
0: Out <= 1nl; 
1: Out 《= In2; 








2: Out <= In3; 
default: Out “= In4; 
endcase 
endmodule 





图 B-4-2 使 用 case 语句 实现 的 4 选 1 多 路 选择 器 ， 该 多 路 选择 器 包含 32 位 输入 。case 语句 与 C 语 
言 中 的 switch 语句 类 似 ,不 同 之 处 在 于 ， 在 Verilog 中 ， 只 有 被 case 选择 到 的 语句 会 被 
执行 (就 好 像 每 一 个 case 状态 后 面 都 加 了 break 一 样 ) ， 并 且 不 能 转 到 下 一 个 分 支 去 


module MIPSALU (ALUct1, A, B, ALUOut, Zero); 


input [3:0] ALUct1; 


input [31:0] A,B; 
output reg [31:0] ALUOut:; 
output Zero; 


assign Zero = (ALUOut==0); //Zero is true if ALUOut is 0; goes anywhere 
always @(ALUct1，A，B) //reevaluate if these change 


case (ALUct1) 
: ALUOut 《= 





A 
: ALUOut <= A 
: ALUOut 《= A 

A 
A 


如 
二 一 证 


: ALUOut 《= 
7: ALUOut 《= ?Tus 

12: ALUOut 《= ~(A | B); // result is nor 

default: ALUOut “= 0; //default to 0, should not happen; 


B 
B's 
B’; 
B 
B 











endcase 
endmodule 
图 B-4-3 MIPS 中 ALU 的 Verilog 行为 级 定义 。 通 过 使 用 包含 基本 算术 和 逻辑 操作 的 模块 库 ， 就 可 
以 对 其 进行 综合 


著 |] 精 解 组 合 逮 辑 中 经 常 使 用 连续 赋值 语句 ， 但 是 在 其 他 一 些 Verilog 结构 中 ， 逻 辑 综合 中 
可 能 会 产生 想不到 的 结果 ， 即 使 是 always 块 也 有 这 种 问题 。 最 常见 的 问题 是 ， 使 用 已 经 
存在 的 锁 存 器 或 寄存 器 来 实现 时 序 逻 辑 ， 这 将 导致 生成 的 结果 比 预期 的 要 慢 ， 并 且 开 销 要 
大 。 为 了 保证 你 设计 的 组 合 逻 辑 可 以 按 这 种 方式 被 综合 ， 你 需要 按 下面 的 注意 事项 操作 : 

1) 将 所 有 的 组 合 逻 辑 放 在 连续 赋值 语句 或 always 块 中 。 

2) 保证 作为 输入 的 所 有 信号 都 出 现在 always 块 的 敏感 信号 列表 中 。 

3) 保证 每 一 个 通过 always 块 的 数据 通路 ,都 将 值 赋 给 同一 位 组 。 

最 后 一 点 是 最 容易 被 忽略 的 。 请 读 一 下 图 B-5-15 中 的 例子 ， 来 说 服 自己 为 何 要 坚持 
最 后 这 条 准则 。 
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著 ] 小 测验 

假设 所 有 变量 都 初始 化 为 0， 下 面 的 Verilog 包含 在 always 块 中 ， 则 执行 完 下 面 的 语句 
后 ，A.B 的 值 分 别 为 多 少 ? 

C=1; 


cy 
B. 5 构建 基本 的 算术 逻辑 单元 


ALU: 被 所 有 计算 机 系统 作为 标准 来 使 用 的 一 个 随机 数 生 成 器 。 
一 一 Stan KplD- BootC， 魔 鬼 词 典 ，1951 
算术 逻辑 单元 (arithmetic logic unit，ALU) 是 计算 机 的 核心 ，ALU 用 来 执行 算术 运算 ， 比 
如 加 法 和 减法 ， 也 可 以 用 来 执行 逻辑 运算 ， 比 如 与 操作 和 或 操作 。 本 节 中 ， 我 们 将 借助 4 个 硬 
件 块 〈 与 门 、 或 门 、 反 向 器 和 多 路 选择 器 ) 来 构造 一 个 ALU， 并 演示 组 合 逻 辑 是 如 何 工 作 的 。 
下 一 节 中 ,我 们 将 展示 如 何 通过 更 加 聪明 的 设计 来 加 速 加 法 器 的 操作 。 
因为 MIPS 中 一 个 字 为 32 位 宽 ， 因 此 我 们 需要 一 个 32 位 宽 的 ALU。 假设 我 们 使 用 32 个 1 
位 宽 ALU 来 构建 所 需 的 ALU。 我 们 将 从 如 何 构建 1 位 宽 ALU 开始 。 


B.5.1 1 位 ALU 


逻辑 操作 是 最 简单 的 ， 因 为 它们 直接 映射 为 图 B-2-1 中 的 硬件 元 件 。 

与 和 或 对 应 的 1 位 逻辑 单元 如 图 B-5-1 所 示 。 多 路 选择 器 选择 是 进行 a AND b 操作 还 是 a 
OR b 操作 ， 如 何 选择 取决 于 Operation 的 值 为 0 还 是 1。 为 了 与 数据 信和 号 线 进行 区 分 ， 多 路 选择 
器 的 控制 信号 画 了 颜色 。 需 要 注意 的 是 ， 我 们 需要 为 多 路 选择 器 的 控制 线 和 输出 线 进行 重 命 
名 ， 以 便 反 映 它 们 在 ALU 中 的 功能 。 

下 一 个 需要 加 入 的 函数 是 加 法 。 一 个 加 法 器 必须 包含 两 个 输入 操作 数 ， 并 输出 一 位 和 。 同 
时 ， 需 要 另外 一 个 输出 来 传递 进位 ， 称 为 CarryOut。 因 为 来 自 相 邻 加 法 器 的 进位 是 作为 输入 对 
待 的 ， 因 此 加 法 器 需要 第 三 个 输入 。 这 个 输入 称 为 CarryIn。 图 B-5-2 显示 了 一 位 加 法 器 的 输入 
和 输出 。 我 们 知道 加 法 操作 的 作用 是 什么 ， 因 此 我 们 可 以 通过 输入 来 指定 对 应 的 输出 ， 如 
图 B-5-3 所 示 。- 


进位 输入 





下 | 和 z | 
b ) > 进位 输出 


图 B-5-1 与 和 或 的 1 位 逻辑 单元 图 B-5-2 1 位 加 法 器 。 该 加 法 器 称 为 全 加 器 ， 它 也 称 为 
(3，2) 加 法 器 ， 因 为 它 有 3 个 输入 端 和 2 个 
输出 端 。 如 果 一 个 加 法 器 只 有 a 和 上 b 两 个 输入 ， 
则 称 为 (2，2) 加 法 器 或 半 加 器 
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0+0+0=00 
0+0+1=01, 


0+1+0=01 


















1+0+1=10, 
1+1+0=10, 
1+1+1=11， 




















图 B-5-3 1 位 加 法 器 输入 输出 定义 


我 们 可 以 用 逻辑 等 式 的 方式 来 表示 输出 信号 CarryOut 和 Sum， 这 些 逻 辑 等 式 又 可 以 通过 由 
辑 门 来 实现 。 以 Carry0ut 为 例 。 图 B-5-4 显示 了 当 CarryOnut 为 1 时 ， 对 应 输入 的 值 。 

我 们 可 以 将 真 值 表 转 化 为 逻辑 等 式 : 

CarryOut =(b*: CarryIn) + (a* CarryIn) 

+(a"b)+(a'b'.CarryIn) 

如 果 a . b CamryIn 为 真 ， 则 剩余 的 三 个 乘 “| 0 

1 

1 


| 十 1 
积 项 也 必然 为 真 ， 因 此 我 们 可 以 根据 真 值 表 的 第 | 0 1 
4 行将 最 后 一 项 省 略 掉 。 简 化 后 的 等 式 为 : 1 0 
CarryOut = (b. CarryIn) + (a* CarryIn) + (a * b) 1 1 1 


图 B-5-5 显示 了 加 法 器 黑 盒 子 内 部 的 硬件 ， 个 给 
其 申 ConyOmt 由 5 本 与 门 和 一 个 或 门 组 成 。 三 个 人 天 和 风 ， 信介 视 作 的 提 
与 门 分 别 对 应 上 式 中 括号 内 的 乘积 项 ， 或 门 用 来 得 到 三 个 乘积 项 的 和 。 

当 有 一 个 输入 为 1 或 三 个 输入 都 为 1 时 ，Sum 设置 为 1。Sum 对 应 的 布尔 等 式 较为 复杂 
( 回 乙 一 下 ,5 表示 NoT a) ， 如 下 所 示 : _ 

Sum= (a.b.CaryImn) +(a.b.Carym)+(a.b:. CarryImn)+(a.b.CarryIm) 

如 何 画 出 加 法 器 中 Sum 对 应 的 逻辑 ， 留 给 读者 作为 练习 。 

图 B-5-6 所 示 的 是 用 之 前 的 部 件 组 成 的 加 法 器 得 到 的 1 位 ALU。 有 时 设计 人 员 也 希望 ALU 
能 完成 再 多 一 些 简单 的 操作 ， 比 如 生成 0。 最 简单 增加 一 个 操作 的 方法 是 扩大 由 操作 线 控制 的 
多 路 选择 器 ， 例如， 为 了 将 0 直接 连 到 扩展 的 多 路 选择 器 的 新 输入 端 。 























, 操作 
进位 输入 





进位 输出 进位 输出 
图 B-5-5 加 法 器 中 产生 CarryOut 信号 所 需 的 硬 ” 图 B-5-6 完成 “与 “或 ”和 “加 法 ”运算 的 
件 。 加 法 器 硬件 的 剩余 部 分 是 本 页 等 一 个 1 位 ALU ( 见 图 B-5-5) 


式 中 和 (Sum) 的 输出 逻辑 
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B. 5.2 32 位 的 算术 运算 单元 (ALU) 


现在 我 们 已 经 实现 了 1 位 的 ALU， 由 临近 的 “ 黑 盒 子 ” 连 接 成 32 位 的 ALU。 用 *i 表 示 x 
的 第 i 位 ,图 B-5-7 所 示 的 是 一 个 32 位 的 ALU。 犹 如 一 块 石头 能 使 一 个 平静 的 湖 激 起 涟 满 ， 一 


个 最 不 重要 的 进位 (结果 0) 能 通过 所 有 的 加 法 操作 
器 带 来 显著 的 进位 (结果 31) 。 因 此 ， 通 过 直接 
连接 1 位 进位 的 加 法 器 称 为 行 波 进位 加 法 器 。 从 | 
B. 6 节 开 始 我 们 将 看 到 一 种 更 快 连接 1 位 加 法 器 
的 方法 。 


减法 就 是 将 第 二 个 源 操作 数 变相 取 反 后 用 加 
法 实现 。 快 速 求 一 个 二 进 制 数 补 码 的 方法 是 ， 将 
这 个 数 按 位 取 反 ,然后 加 1。 为 了 反 转 每 一 位 ， 
我 们 只 需 在 b 和 上 b 之 间 添 加 用 来 选择 的 2: 1 多 路 
选择 器 ， 如 图 B-5-8 所 示 。 

假设 将 32 个 1 位 的 ALU 连接 到 一 起 ， 如 
图 B-5-7 所 示 。 所 添加 的 多 路 转换 器 给 出 b 的 选 
项 或 它 的 反 码 ， 这 取决 于 Binvert， 但 是 这 仅 是 求 
二 进 制 数 补 码 的 一 个 步骤 。 注 意 到 ， 最 低位 仍然 
有 一 个 CamyI 信号 ， 即 使 它 对 加 法 是 不 必要 的 。 
如 果 我 们 用 1 代替 0 来 设置 CarryIn 信号 ， 将 会 发 
生 什么 ? 加 法 器 会 计算 a+b +1。 通 过 将 b 取 反 ， 





就 能 得 到 我 们 想 要 的 结果 : 
a+b+l1=a+(b+1)=a+(-b)=a-b 图 B-5-7 由 32 个 1 位 ALU 构成 的 32 位 ALU。 
一 个 二 进 制 补 码 加 法 器 的 简单 设计 有 助 于 解 et i ee 
从 一; 示 } 立 的 CarryIn 信号 上 ， 
释 为 什么 二 进 制 的 补 码 表示 已 经 成 为 整数 计算 机 种 组 成 方式 称 为 行 波 进位 
运算 的 通用 标准 。 


Binvert 操作 





进位 输出 


图 B-5-8 一 个 1 位 的 ALU 执行 “与 "、“ 或 ”以 及 加 法 a+b 和 a+b。 通 过 选择 b ( Binvert =1) ， 并 在 
影响 不 显著 的 位 上 将 CarryIn 设置 为 1， 得 到 b 的 二 进 制 补 码 减法 ， 而 不 是 b 到 a 的 加 法 
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一 个 MIPS ALU 需要 或 非 (NOR) 功能 ,我 们 可 以 通过 重复 使 用 ALU 内 部 已 经 有 的 硬件 来 
实现 这 种 功能 ， 而 不 是 单独 增加 一 个 或 非 门 。 或 非 表 达 式 表示 如 下 : 





(a+b)=a:b 
即 a 或 b 的 非 和 非 a 与 非 b 是 相等 的 ， 这 也 被 称 为 德 . 摩根 定律 ， 在 练习 题 中 进行 更 加 深入 的 
ALU 上 已 经 有 了 与 门 和 非 b， 只 需要 再 增加 非 a, 图 B-5-9 所 示 的 是 改变 后 的 结构 。 
Ainvert 操作 
Binvert 进位 输入 





进位 输出 


图 B-5-9 1 位 ALU 实现 “与 "、“ 或 ”以 及 a+b 或 者 a+b。 通 过 选择 a (Ainvert =1) 
和 b (Binvert =1) ， 能 得 到 a +b 而 不 是 a+b 


B. 5.3 将 32 位 的 ALU 添加 至 MIPS 


加 法 、 减 法 、 与 、 或 4 个 操作 几乎 在 每 一 台 计 算 机 里 面 都 能 找到 ， 并且 大 多 数 的 MIPS 指 
令 都 能 由 ALU 实现 , 但 是 ALU 的 设计 不 是 完美 的 。 

仍然 需要 支持 的 一 条 指令 是 slt 指令， 回想 前 面 的 内 容 ， 如 果 rs < rt， 操 作 过 的 记 为 1， 
反之 ,结果 为 0。 因 此 ，slt 指令 根据 比较 将 所 有 不 显著 的 位 都 进行 设置 ,但 是 都 将 它们 设置 
为 0。 为 了 让 ALU 执行 sit 指令 ， 首先 需要 扩大 三 输入 的 多 路 选择 器 ， 在 图 B-5-8 中 为 slt 结 
果 增 加 一 个 输入 。 我 们 称 之 为 Less， 仅 在 slt 中 使 用 。 

图 B-5-10 顶部 的 图 所 示 的 是 有 扩展 的 多 路 选择 器 的 1 位 ALU。 从 以 上 对 slt 的 描述 中 ， 
我 们 得 知 必须 将 上 面 31 位 ALU 的 输入 端 Less 连接 到 0， 因 为 这 些 位 经 常 被 置 为 0。 剩 下 要 考 
虑 的 是 在 slt 指令 中 如 何 比 较 和 设置 最 不 显著 的 位 。 

如 果 用 a 减 去 b 会 发 生 什么 ”如 果 结 果 为 负 值 ， 那 么 a<b， 因 为 

(a-b) <0=:((a-b)+b) < (0+b) 
a<b 
如 果 a <b， 我 们 就 把 slt 操作 中 最 低位 设置 为 1; 也 就 是 说 ，a -b 为 负数 时 结果 为 1， 为 正 时 
结果 为 0。 期 望 值 完全 对 应 的 标志 位 置 为 : 1 代表 负 值 ，0 代表 正 值 。 遵 循 这 个 论点 ， 仅 需要 将 
加 法 器 输出 的 标志 位 连接 到 最 低位 上 ， 进 而 得 到 slt。 
不 幸 的 是 ， 图 B-5-10 顶部 的 图 的 slt 操作 中 ，ALU 输出 的 Result 的 最 高 位 不 是 加 法 器 的 
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输出 ; 加 法 器 slt 操作 输出 明显 是 输入 值 Less。 


Less 








Ainvert 操作 
Binvert 进位 输入 





图 B-5-10 (顶部 ) 1 位 ALU 执行 “与 "、“ 或 ”以 及 加 法 a+b 或 者 a+b，( 底 部 ) 一 个 1 位 ALU 最 显 
著 位 。 顶 部 的 图 包括 连接 到 slt 操作 上 的 直接 输入 ( 见 图 B-5-11); 底部 的 图 有 Less 操作 
的 直接 输入 ， 称 为 Set ( 见 附录 未 的 练习 题 B. 24， 了 解 如 何 用 较 少 的 输入 计算 溢出 ) 


因此 ， 最 高 位 需要 一 个 新 的 1 位 的 ALU， 它 有 额外 的 输出 位 : 加 法 器 的 输出 。 图 B-5-10 
底部 的 图 所 示 的 设计 是 有 新 输出 Set 的 加 法 器 ， 并 且 仅 用 在 slt 中 。 我 们 只 需要 一 个 特殊 的 最 
高 位 ， 于 是 增加 了 溢出 检测 逻辑 ， 因 为 它 和 最 高 位 是 关联 的 。 

由 于 溢出 问题 的 存在 ，slt 的 检测 比 之 前 描述 的 要 更 加 复杂 ， 如 在 练习 题 中 探究 的 。 
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图 B-5-11 所 示 的 是 32 位 的 ALU。 
Binvert 操作 


Ainvert 


进位 输入 





”a0 一 | 进位 输入 > 结果 0 
b0 一 ”| ALU0 








al 一 >| ”进位 输入 > 结果 1 
bl 一 一 | ALU1 
0 一 -~ Less 











a2 一 ”| ”进位 输入 > 结果 2 
b2 一 “| ALU2 


0 一 一 | 














Less 
进位 输出 











图 B-5-11 一 个 复制 31 个 图 B-5-10 顶部 结构 和 一 个 图 B-5-10 底部 结构 组 成 的 32 位 ALU。 除 了 最 低位 ， 
Less 输入 都 连接 到 0， 最 低位 连接 至 Set 输出 端的 最 高 位 。 如 果 ALU 执行 a-b， 我 们 选择 在 
图 B-5-10 中 多 路 选择 器 的 输入 端 为 3， 如 果 a <b， 那 么 Result =0…001， 其 他 Result =0…000 


注意 每 次 要 ALU 做 减法 运算 ， 都 要 将 CarryIn 和 Binvert 信号 置 为 1。 对 于 加 法 或 者 逻辑 运 
算 ， 我 们 想 使 控制 线 均 为 0。 因 此 可 以 通过 将 CarryIn 和 Binvert 结合 为 一 根 控制 线 ， 称 为 Bne- 
gate， 从 而 简化 了 ALU 的 控制 。, 

为 了 使 ALU 更 进一步 适合 MIPS 指令 集 ， 必 须 支 持 条 件 分 支 指令 。 这 些 指 令 分 支 或 者 是 两 
个 寄存 器 相等 ， 或 者 它们 不 相等 。 最 简单 的 方法 是 用 ALU 测试 a -b， 并 测试 其 结果 是 否 为 0， 
因为 

(a-b =0)=a=b 

因此 ， 如 果 增 加 硬件 来 测试 结果 是 否 为 0， 就 能 测试 是 否 相 等 。 最 简单 测试 方法 是 将 所 有 

的 输出 取 “ 或 " ， 然 后 将 结果 连接 至 反 相 器 : 
Zero = (Result31 + Result30 + … + Result2 + Resultl + Result0) 

图 B-5-12 所 示 的 是 修改 后 的 32 位 ALU。 考 虑 将 1 位 Ainvert 线 、1 位 Binvert 线 以 及 2 位 的 
Operation 线 作 为 4 位 的 ALU 控制 线 结合 在 一 起 ， 执 行 加 法 、 减 法 、 与 、 或 ， bs slt 指令 。 
图 B-5-13 所 示 的 为 ALU 控制 线 以 及 相应 的 ALU 操作 。 
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最 后 ， 我 们 已 经 看 到 一 个 32 位 的 ALU 的 内 部 结构 ， 我 们 将 用 通用 的 符号 表示 一 个 完整 的 
ALU， 如 图 B-5-14 所 示 。 


Bnegate 操作 
Ainvert 由 ， 


FC Ee 





图 B-5-12 最 终 的 32 位 ALU。 在 图 B-5-11 的 结构 上 增加 了 一 个 0 检测 器 
ALU 操 作 





Mi 
| 
MEE 
[| 





小 于 则 告 位 
[内 


图 B-5$-13 ALU 三 个 控制 线 、Bnegate 和 Opera- 图 B-5-14 图 B-5-12 所 示 ALU 的 符号 图 。 这 个 


tion 的 值 以 及 对 应 的 操作 符号 也 被 用 来 表示 加 法 器 ， 因 此 通常 
使 用 ALU 或 Adder 标记 





进位 输出 
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B. 5.4 用 Verilog 定义 MIPS ALU 


图 B-5-15 所 示 的 是 如 何 用 Verilog 定义 一 个 组 合 MIPS ALU 的 结合 ; 这 样 的 规范 可 能 会 用 
一 个 加 法 器 的 被 实例 化 的 标准 库 编译 。 为 了 完整 性 ， 我 们 在 图 B-5-16 中 展示 了 MIPS 的 ALU 控 
制 器 (在 第 4 章 使 用 过 ) ， 在 这 个 控制 器 上 我 们 建立 了 一 个 Verilog 版 本 的 MIPS 数据 通路 。 


module MIPSALU (ALUct1, A, B, ALUOut, Zero); | 
input [3:0] ALUct1; 

input [31:0] A,B; 

output reg [31:0] ALUOut ; 

output Zero; 

assign Zero = (ALUOut==0); //Zero is true if ALUOut is 0 


always @(ALUct1，A，B) begin //reevaluate if these change 
case (ALUct1) 





0: ALUOut <= A & B; 
1: ALUOut <= A | B; 
2: ALUOut <=A+B 
6: ALUOut <=A-B 


7s ALUOut GAB? LL: 0; 
12: ALUOUt 《= ~(A | BY /7 result is nor 
default: ALUOut <= 0; 
endcase 
end 


endmodule | 


图 B-5-15 一 个 MIPS ALU 的 Verilog 行为 定义 


下 一 个 间 题 是 ，“ ALD 将 两 个 32 位 module ALUControl (ALUOp, FuncCode, ALUCt1); 
的 操作 数 相 加 能 有 多 快 ?” 我 们 能 决定 a | 。 input [1:0] ALUOb， 
和 上 b 的 输入 ,但 是 CarryIn 的 输入 取决 于 input [5:0] FuncCode; 
相 邻 的 1 位 加 法 器 的 操作 。 如 果 我 们 通 | 。 output [3:0] reg ALUCt 
过 依赖 关系 跟踪 所 有 的 路 径 ， 将 最 高 位 always case (FuncCode) 
。 ys i 32: ALUOp<=2; // add 
连接 到 最 低位 上 ， 所 有 和 的 最 高 位 必须 34: ALUOp<-6; psubtract 
等 待 所 有 32 个 1 位 加 法 器 来 依次 计算 。 36: ALUOP<=0; // and 
这 种 顺序 链 的 反应 太 慢 以 至 于 不 能 在 时 S37 ALIOpeTY; MY Dr 


39: ALUOp<=12; // nor 
间 关 键 的 硬件 电路 中 使 用 。 下 一 节 将 探 42: ALUOp<=7; // slt 


究 如 何 加 快 加 法 的 速度 ， 这 个 论题 对 于 default: ALUOp<=15; // should not happen 
d 
理解 附录 的 其 余部 分 不 是 至 关 重 要 的 ， | enanods 
可 以 跳 过 。 


图 B-5-16 MIPS ALU 控制 : 一 个 简单 的 组 合 逻辑 控制 

















苇 ] 小 测验 
假设 想 增加 NOT (a AND b) 操作 ， 称 为 与 非 (NAND) ， 应 如 何 修改 ALU? 可 
1. 没有 改变 。 你 可 以 用 当前 的 ALU 快速 计算 出 NAND， 因 为 (ab) =a+b， 而且 已 经 有 a、b 
以 及 或 门 。 
2. 必须 扩大 多 路 选择 器 以 增加 另外 的 输入 ， 然 后 增加 新 的 逻辑 电路 来 计算 NAND。 


B. 6 快速 加 法 : 超前 进位 


提高 加 法 器 速度 的 关键 是 提高 高 阶 进位 的 速度 。 有 各 种 各 样 的 方案 来 预测 进位 ， 最 坏 的 情 
况 是 加 法 器 中 所 有 位 数 的 对 数 的 函数 。 由 于 进位 经 过 的 逻辑 门 较 少 ， 所 以 这 些 预期 信号 执行 得 
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比较 快 ， 但 是 要 预测 到 更 准确 的 进位 ， 需 要 增加 更 多 的 逻辑 门 。 
理解 快速 进位 的 关键 是 要 理解 : 无 论 输 入 何 时 改变 硬件 都 是 并 行 执行 的 ， 这 一 点 与 软件 不 同 。 


B. 6.1 使 用 “无 限 ” 硬 件 的 快速 进位 B-36 


正如 前 面 提 到 的 ， 任 何 一 个 等 式 都 能 用 两 个 逻辑 层 表 示 。 因 为 只 有 外 部 输入 是 两 个 操作 数 
和 CaryIn 到 加 法 器 的 最 低位 ， 在 理论 上 我 们 可 以 仅 在 两 个 逻辑 层 计算 出 到 加 法 器 所 有 剩余 位 
的 CaryIn 值 。 
例如 ，CarryIn 为 2，CarryOut 恰好 为 1， 因 此 公式 为 
CarryIn2 = (bl + CarryInl ) + (al .+ CarryInl ) + (al .bl) 
类 似 地 ，CarryInl 可 以 定义 为 
CarryInl = (bO0 . CarryIn0) + (a0 .+ CarryIn0) + (a0 . b0) 
用 i 代替 Carylni， 上 式 改 写 为 
c2= (bl.cl)+(al'cl)+(al'.bl) 
cl= (b0.c0) +(a0.c0) +(a0….b0) 
将 表达 式 cl 带 入 第 一 次 公式 c20 ， 可 得 : 
c2 =(al.a0.b0)+(al.a0.c0). (al.b0.…c0) 
+(bl.a0.b0) +(bl'. ao0.c0)+(bl. bo0.c0)+(al'bl) 
可 以 想象 一 下 ， 当 加 法 器 得 到 更 高 的 位 时 ， 方 程式 会 如 何 扩大 ? 它 将 随 着 位 数 的 增加 而 快速 增 
加 。 这 一 复杂 性 可 以 反应 在 快速 进位 的 硬件 开销 上 ， 把 这 个 简单 结构 广泛 用 于 加 法 器 过 于 昂贵 。 


B. 6.2 用 第 一 级 抽象 快速 进位 : 进位 传播 函数 和 进位 产生 函数 


大 多 数 的 快速 进位 方法 使 用 限制 方程 式 的 复杂 性 来 简化 硬件 ， 同 时 与 行 波 进位 相 比 速度 得 
到 了 大 幅度 提高 。 超 前 进位 加 法 器 (carry-lookahead adder) 就 是 这 样 一 种 结构 。 在 第 1 章 中 ， 
已 经 介绍 了 计算 机 系统 是 用 不 同 的 抽象 级 别 来 配合 其 复杂 性 的 。 一 个 超前 进位 加 法 器 依赖 于 不 
同 的 抽象 级 在 其 内 部 的 实现 。 
首先 考虑 原始 方程 的 各 个 因子 : 
ci+l=(bi'ci)+(ai' ch) +(a bi) 
= (ai.bi) +(ai+bi)，ci 
如 果 用 这 个 公式 重 写 c2 的 方程 ， 我 们 将 会 看 到 一 些 重复 的 部 分 : 
c2= (al:bl)+(al :bl):((a0.:b0)+(a0+b0).c0) 
注意 到 (ai bi) 和 (ai+bi) 在 上 面 的 公式 中 重复 出 现 ， 这 两 个 重要 函数 通常 称 为 进位 产生 
函数 ( 疡 ) 和 进位 传输 函数 (pi): B-39 
gi = ai*bi 
pi= ai+bi 
用 它们 来 定义 ci+1， 可 得 : 
ci+l1 = gi+pi'*ci 
为 了 理解 信号 是 从 哪里 得 到 的 , 假设 gg=1， 即 
ci+l=g+p'ci=1l+p'ci=1l 
也 就 是 说 ， 加 法 器 生成 的 进位 输出 (ci+1) 和 进位 输入 (ci) 是 独立 的 。 假设 &&=0，pi=1， 则 
ci+l1=gi+pi'ci=0+1l'ci=oci 
也 就 是 说 ， 加 法 器 将 进位 输入 传递 到 进位 输出 。 将 以 上 二 者 放 在 一 起 可 得 ，gi =1 或 者 pi=1 
且 CarryIni =1， 可 得 CarryIni +1=1。 
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作为 比喻 ， 想象 一 排 多 米 诺 骨 牌 ， 通 过 推倒 远 处 的 一 张 牌 而 将 最 后 一 张 推倒 ,假设 两 张 牌 之 间 
没有 间隙 。 类 似 地 ,一 个 进位 可 以 通过 生成 因子 而 使 其 为 真 ， 只 要 它们 之 间 所 有 的 传递 因子 均 为 真 。 

根据 传递 因子 和 生成 因子 的 定义 ， 我 们 将 其 作为 第 一 抽象 级 ， 能 更 加 经 济 地 描述 进位 输入 
信号 。 下 面 所 示 的 是 4 位 的 : 

cl= 8g0+(p0'…c0) 

c2= gl+(pl:g0)+(pl:p0:c0) 

c3=2+(pP2'g1)+(p2:pl'g0)+(p2:pl:pO.c0) 

cq= 中 +(p3 8) +(p3.p2 .glL) +(p3.p2 .pl 80) +(p3.p2. pl.p0'c0) 
这 些 公 式 只 代表 一 般 情 况 : 如 果 之 前 的 加 法 器 生成 了 一 个 进位 ， 并 且 所 有 的 中 间 的 传递 因子 传 
输 了 这 个 进位 ， 那 么 CarryIni =1。 图 B-6-1 就 是 用 这 种 方法 解释 超前 进位 。 

但 是 这 种 简化 的 形式 使 方程 变 得 很 长 ， 因 此 考虑 一 个 16 位 的 加 法 器 的 逻辑 ， 试 着 转 到 两 
个 抽象 级 上 实现 。 





图 B-6-1 1 位 、2 位 、4 位 超前 进位 的 管道 表示 以 及 对 应 的 值 。 扳 手 有 开 / 关 两 个 值 ， 水 用 灰色 
部 分 表示 ， 管 道 的 输出 (ci +1) 会 满 ， 如 果 最 近 的 进位 产生 函数 的 值 (gi) 处 于 打开 
状态 或 者 第 i 个 进位 传输 函数 (pi) 也 是 打开 的 ， 这样 上 游 会 有 水 ,或 者 从 之 前 生成 
的 或 者 是 从 后 面 传 过 来 的 水 。 进 位 输入 (c0) 能 在 没有 任何 进位 产生 函数 的 情况 下 输 
出 一 个 进位 ,但 是 需要 所 有 的 进位 传输 函数 
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B. 6.3 用 第 二 级 抽象 快速 进位 


首先 ， 我 们 考虑 4 位 的 加 法 器 ， 它 的 超前 进位 逻辑 作为 一 个 单独 块 。 如 果 将 4 位 加 法 器 的 
行 波 进位 相连 接 ， 形 成 一 个 16 位 的 加 法 器 ， 这 将 比 原始 有 更 多 硬件 的 加 法 器 速度 快 。 
为 了 执行 得 更 快 ， 需 要 将 超前 进位 放置 在 更 高 层 上 。 为 了 执行 4 位 加 法 器 的 超前 进位 ， 需 
要 将 传递 因子 和 生成 因子 也 置 于 较 高 的 层次 。 下 面 是 4 位 加 法 器 的 块 : 
PO=p3:p2:pl:p0 
Pl=p7:p6:p5:p4 
P2 = pll .: pl0 . p9 + p8 
P3 = pl5 : pl4 : pl3 : p12 
即 “ 超 ”传递 信号 的 4 位 抽象 (Pi) 为 真 ， 当 且 仅 当 组 中 的 每 一 位 都 将 传递 一 个 进位 。 
对 于 “ 超 ” 生 成 信号 (Gi) ， 我 们 只 关心 4 位 的 组 中 最 显著 的 位 中 是 否 有 一 个 进位 。 如 果 
对 于 大 部 分 最 显著 位 的 生成 因子 为 真 ， 这 些 情况 是 显而易见 的 。 如 果 较 早 的 一 个 生成 因子 为 
真 ， 而 且 包 括 大 多 数 的 最 显著 位 的 中 间 所 有 的 传递 因子 也 为 真 ， 以 上 情况 也 是 会 出 现 的 。 
G0O=g3+(p3*g)+(p3* p28g1)+(p3*p2: Ppl: 中) 
Gl=g7+(p7*p6)+(p7*P6:8)+(p7* pO p58) 
G2= gll + (pll . g10) + (pll .pl10. 中) + (pll : pl0 . p9 . g8) 
G3= gl5 + (p15. g14) + (pl5 :+ pl4 .gl3) + (pl5 .pl14 * pl3 : g12) 
图 B-6-2 用 管道 作为 类 比 ， 以 证 明 PO 和 G0。 





图 B-6-2 下 一 级 超前 进位 信号 PO 和 G0 的 管道 分 析 。 仅 当 所 有 4 个 进位 传输 函数 (pi) 都 
打开 时 PO 是 打开 的 ，G0 里 是 有 水 流 的 ， 仅 当 至 少 有 一 个 进位 产生 函数 (gi) 是 
打开 的 ， 并且 从 该 生成 因子 所 有 的 进位 传输 函数 的 下 游 是 开放 的 
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图 B-6-3 中 16 位 加 法 器 的 C1、C2、C3、0C4 与 B. 6.2 节 的 4 位 加 法 岩 的 cl 、c2、c3、c4 的 
很 相似 : 

Cl= G0 + (PO .ce0) 

C2= Gl + (Pl : G0) + (Pl : PO : c0) 

C3= G2+(P2: G1) +(P2.P1.GO) +(P2.P1.P0O.c0) 

G4= G3 +(P3 . G2) + (P3 .P2 .GL) +(P3.P2.Pl1.G0O) +(P3.P2.Pl1.P0O.c0) 

B-6-3 所 示 的 是 4 位 的 加 法 器 连接 到 一 个 超前 进位 单元 。 练 习题 中 会 探究 这 些 进 位 方案 
速度 的 差异 ， 对 位 传递 因子 和 生成 因子 信和 号 的 不 同 表 示 ， 以 及 64 位 加 法 器 的 设计 。 


CarryIn 





a0 ”| CarryIn 
b0 —> —> Result0—3 
al —> 





bl —> 







超前 进位 单元 


b4 —> Result4-7 








a8 一 >| CarryIn 


b8 Result8—11 





-> Result12-15 


bl4—> pi+3 
al5 一 一 ~| gi+3 





Ci+4 





CarryOut 


图 B-6-3 用 4 个 4 位 超前 进位 单元 串 接 形成 16 位 加 法 器 。 注 意 ， 
进位 均 来 自 超前 进位 单元 ， 而 不 是 4 位 的 ALU 


团 例题 * 不 同 级 的 进位 传输 函数 和 进位 产生 函数 


a: 0001 1010 0011 0011。 

bs 1110 0101 1110 1011。 

同样 的 ，CaryOut15 (C4) 的 值 是 多 少 ? 

四 和 

将 各 位 对 准 ， 很 容易 得 到 进位 产生 函数 gi(ai* bi) 和 进位 传输 函数 pi(ai +bi) 的 值 : 
a: 0001 1010 0011 0011 

b: 1110 0101 1110 1011 

g7: 0000 0000 0010 0011 

pi: 1111 1111 1111 1011 


从 左 到 右 依次 标记 为 15 ~0,“ 超 ”进位 传输 函数 (P3、P2、P1、P0) 是 低级 进位 传输 函 
数 简单 相 与 。 


P3 = Ll 
Bl lal 
El = 1.1 .1=1 
PO=1:0.1:1=0 


“ 超 ” 进 位 产生 函数 较 复杂 一 些 ， 用 下 式 表 示 : 
G0O=g3+(p3.g2)+(p3:pP2:g1)+(p3*Pp2: pl 20) 
=0+(1.0)+(1:0.1)+(1:0.1.1) =0+0+0+0=0 
Gl=g+(p7:8g6)+(p7*p6:85) +(p7. pO:Pp5. 84) 
=0+(1.:0)+(1:1:1)+(1:1:.1.0) =0+0+1+0=1 
G2= gll + (pll : g10) +(pll. pl0 . g9) + (pll . pl0.p9… g8) 
=0+(1:.0)+(1:1:0)+(1:.1:1.0) =0+0+0+0=0 
G3 = gl5 + (pl15 .gl4) + (p15 .pl4 .gl3) +(p15 .pl4 .pl3 .gl2) 
=0+(1.0)+(1.1.0) +(1.1.1.0) =0+0+0+0=0 
最 后 ，CarryOut15 为 : 

C4= G3+(P3.G2)+(P3.P2.GI)+(P3.P2.P1. CO) +(P3.P2.PI.PO.c0) 
=0+(1.0)+(1:1:.1)+(1:1:.1.0)+(1:1.1.:0.0) 
=0+0+1+0+0=1 

因此 ， 当 加 上 这 些 16 位 的 数 之 后 会 有 一 个 进位 输出 。 OO 


超前 进位 能 快速 进位 的 原因 是 ， 当 时 钟 周期 开始 时 所 有 的 逻辑 单元 同时 开始 计算 ， 并 且 每 
个 门 停止 变化 时 输出 不 会 改变 。 通 过 利用 更 少 的 门 发 送 进位 信号 这 种 快捷 方式 ， 门 的 输出 将 很 
快 停止 变化 ， 因 此 加 法 器 延迟 时 间 就 少 了 。 

为 了 更 好 地 理解 超前 进位 的 重要 性 ， 我 们 需要 计算 它 与 行 波 进位 加 法 器 之 间 的 相对 性 能 。 


著 ] 例题 行 波 进位 加 法 器 和 超前 进位 加 法 器 速度 的 比较 

一 个 建立 时 间 逻 辑 模型 的 简单 方法 是 假设 通过 每 个 与 门 或 者 或 门 需要 的 时 间 是 相同 的 。 通 
过 简单 计算 通过 逻辑 路 径 上 门 的 数量 估计 时 间 ， 比 较 16 位 加 法 器 路 径 上 门 延 迟 的 数量 ， 一 个 
用 行 波 进位 ， 另 一 个 用 的 是 两 级 的 超前 进位 。 
全 | 答案 

B.5 节 中 的 图 B-5-5 所 示 的 每 个 进位 输出 信号 需要 两 个 门 延迟 ， 最 低位 上 的 进位 输入 和 最 
高 位 上 的 进位 输出 之 间 的 门 延迟 为 16 x2 =32。 

对 超前 进位 加 法 器 来 说 ， 最 高 位 的 进位 输出 正 是 例子 中 定义 的 C4。 用 Pi 和 Gi 两 个 层次 的 逻 
辑 上 定义 C4 〈( 几 个 AND 组 成 的 OR 式 ) 。Pi 是 用 pi (与 门 ) 定义 的 ，Gi 是 用 pi 和 gg 共同 来 定义 


B-42 





B-47 
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的 ， 所 以 ,下 一 抽象 级 最 差 的 情况 是 两 级 逻辑 。pi 和 gi 都 是 用 ai 和 bi 定义 的 一 级 逻辑 。 在 这 个 
方程 中 ， 如 果 假 设 每 个 逻辑 级 都 是 一 个 门 延迟 ， 那 么 最 坏 的 情况 是 2+2 +1=5 个 门 延迟 。 

因此 ， 对 于 一 个 进位 输入 到 进位 输出 的 通路 ，16 位 超前 进位 加 法 器 的 速度 是 行 波 进位 加 
法 器 的 6 倍 ， 用 这 种 方法 可 以 简单 估计 硬件 的 速度 。 口 


小 结 


超前 进位 加 法 器 比 32 个 1 位 组 成 的 32 位 行 波 进位 加 法 器 的 速度 快 ， 这 个 快速 通路 的 两 个 
主要 信号 是 进位 产生 函数 和 进位 传播 函数 。 

前 者 忽略 了 进位 输入 ， 后 者 是 沿 着 进位 传播 的 。 超 前 进位 加 法 器 的 抽象 概念 在 计算 机 设计 
解决 复杂 化 问题 时 的 重要 性 方面 也 是 很 好 的 示例 。 


著 ] 小 测验 
用 门 延迟 对 硬件 执行 速度 进行 简单 评估 ， 一 个 8 位 的 行 波 进位 加 法 器 和 一 个 64 位 的 超前 
进位 加 法 器 的 相对 性 能 如 何 ? 
1. 一 个 64 位 超前 进位 加 法 器 能 快 3 倍 : 8 位 加 法 器 有 16 个 门 延迟 ，64 位 的 有 7 个 门 
延迟 。 
2. 它们 的 速度 大 约 相等 ， 因 为 64 位 加 法 器 需要 16 位 加 法 器 有 更 多 的 逻辑 层 。 
3. 8 位 加 法 器 比 64 位 的 快 ， 即 使 有 超前 进位 。 


图 | 精 解 除了 一 个 算术 逮 辑 操作 之 外 ， 我 们 已 经 描述 了 核心 MIPS 指令 集 的 全 部 操作 : 
图 B-5-14 忽略 了 移 位 指令 ， 这 可 能 会 扩大 ALU 多 路 选择 器 ， 包 括 左 移 一 位 和 右 移 一 位 。 
但 硬件 设计 人 员 设 计 了 一 种 电路 ， 称 为 桶 形 移 位 器 (barrel shifter) ， 它 可 以 从 1 移 到 31 
位 ， 消 耗 的 时 间 和 将 两 个 32 位 的 数字 相 加 的 时 间 相 差 不 大 ， 所 以 移 位 操作 通常 是 在 ALU 
外 部 完成 的 。 
图 | 精 解 B.5 节 中 ， 全 加 器 和 的 输出 的 逻辑 方程 可 以 用 一 个 比 与 门 和 或 门 能 力 更 强 的 门 来 简 
单 表示 。 如 果 两 个 操作 数 不 同 ， 异 或 门 输出 为 真 ， 即 
文治 cl 县 == 70 
在 一 些 技术 中 ， 蜡 或 门 比 与 门 和 或 门 的 执行 效率 更 高 ， 用 旬 来 表示 异 或 运算 ， 则 等 式 可 
以 重新 表达 为 : 
Sum = a Db @ CarryIn 
同样 ， 我 们 用 这 种 传统 的 门 级 表示 方法 来 表示 ALU 电路 。 当 今 的 计算 机 都 是 用 CMOS 
晶体 管 设计 的 ，CMOS ALU 以 及 桶 形 移 位 器 利用 了 开关 的 优点 ， 而 且 比 文中 的 设计 使 用 的 
多 路 选择 器 少 ， 但 是 设计 原则 是 相似 的 。 
项 | 精 解 当 有 两 个 以 上 的 级 别 的 层次 结构 时 ， 用 小 写 和 大 写字 母 来 区 分 进位 生成 和 进位 传播 
符号 。g; j 和 p, ,代表 从 i 位 到 j 位 的 进位 产生 函数 和 进位 传播 函数 ， 因 此 ，g ,表示 产生 
1，gs 1 表示 产生 4 到 1， 同 样 ，gi。 .1 表示 从 16 到 1。 


B.7 时 钟 


在 我 们 讨论 存储 元 件 和 时 序 电 路 之 前 有 必要 简要 地 讨论 一 下 时 钟 。 这 一 节 主 要 讨论 这 一 
主题 ， 并 且 本 节 内 容 同 4. 2 节 的 讨论 类 似 。 更 多 的 关于 时 钟 和 时 序 策略 的 细节 将 在 B. 11 节 
讨 论 oo 
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时 钟 在 时 序 电 路 中 非常 重要 ， 它 决定 了 处 于 某 一 状态 的 存储 元 件 何 时 被 更 新 。 时 钟 是 一 个 
具有 固定 周期 时 间 的 不 停 运 转 的 信号 ， 时 钟 频率 是 周期 时 间 的 倒数 。 如 图 B-7-1 所 示 ， 时 钟 周 
期 时 间或 者 说 时 钟 周期 被 分 割 为 两 部 分 ， 高 电 平时 钟 和 低 电 平时 钟 。 在 此 我 们 只 使 用 边沿 触发 
时 钟 (edge-triggered clocking) 。 这 意味 着 所 有 的 状态 改变 都 将 发 生 在 时 钟 边沿 。 我 们 之 所 以 使 
用 一 种 基于 边沿 触发 的 时 钟 策略 ， 是 因为 它 易 于 解释 。 从 工艺 学 的 角度 来 看 ， 很 难说 依赖 于 边 
沿 触发 的 时 钟 策略 的 时 钟 同步 方法 (clocking methodology) 是 否 是 最 好 的 选择 。 


2 边沿 触发 时 钟 ， 一 种 时 钟 机 制 ， 在 这 种 机 制 下 所 有 的 状态 改变 都 发 生 在 时 钟 边沿 。 
2 时 钟 同步 方法 : 一 种 根据 时 钟 来 决定 数据 何 时 有 效 和 稳定 的 方法 。 


LR 


时 钟 周 期 上 升 沿 


图 B-7-1 时 钟 信号 在 高 电 平 和 低 电 平 之 间 震 荡 。 时 钟 周期 是 一 个 完整 的 最 小 间隔 的 时 间 。 
在 边沿 触发 的 设计 中 ， 可 使 用 有 效 的 上 升 沿 或 者 下 降 沿 来 改变 状态 

在 一 种 边沿 触发 的 方法 中 ， 可 使 用 有 效 的 上 升 沿 或 者 下 降 沿 来 改变 状态 。 在 下 一 节 中 ， 状 
态 单元 (state element) 在 一 个 边沿 触发 的 设计 中 实现 ， 且 状态 单元 的 内 容 只 有 在 一 个 有 效 的 
时 钟 沿 才 能 改变 。 选 择 哪 一 个 时 钟 边 沿 作为 有 效 边沿 受 设计 策略 的 影响 ， 且 不 会 影响 逻辑 设计 
中 所 涉及 的 概念 。 

时 钟 边沿 作为 一 个 采样 信和 号， 会 导致 状态 单元 的 输入 值 被 采样 且 存 储 在 状态 单元 中 。 使 用 
一 个 边沿 触发 器 意味 着 采样 过 程 实 际 上 是 瞬时 的 ， 可 以 消除 信号 在 很 小 的 时 间 差 内 被 采样 可 能 
导致 的 问题 。 

时 钟 系统 即 同步 系统 (synchronous system) ， 最 主要 的 限制 是 被 写 人 状态 单元 的 信号 在 有 
效 时 钟 边 沿 必须 是 有 效 的 。 一 个 信和 号 在 它 是 稳定 〈 不 改变 ) 时 才 是 有 效 信号 ， 并 且 在 输入 不 
变 时 ， 信 号 值 不 会 改变 。 因 为 组 合 电路 没有 反馈 结果 ， 在 组 合 罗 辑 单元 的 输入 没有 改变 的 情况 
下 ， 组 合 逻 辑 单元 的 输出 将 最 终 有 效 。 


2 状态 单元 : 存储 元 件 。 
人 同步 系统 : 一 个 使 用 时 钟 的 存储 系统 ， 且 数据 信号 只 有 在 当前 时 钟 下 是 处 于 稳定 状态 时 才 
可 被 读 取 。 


图 B-7-2 表示 处 于 一 个 同步 时 序 逻 辑 设计 中 的 状态 单元 和 组 合 逻 辑 单元 的 关系 。 状 态 单元 
的 输出 只 在 时 钟 边沿 之 后 改变 ， 且 状态 单元 组 合 逻 辑 块 提供 有 效 的 输入 。 为 了 保证 在 有 效 时 钟 
边沿 写 和 状态 单元 的 数据 是 有 效 的 ， 时 钟 周期 必须 足够 长 才能 保证 所 有 在 组 合 逻 辑 块 中 的 信号 
都 稳定 后 ， 在 时 钟 边沿 采样 这 些 数据 ， 将 其 存储 在 状态 单元 中 。 这 个 限制 将 时 钟 周期 的 长 度 限 
制 在 一 个 较 小 的 范围 ， 即 时 钟 周期 必须 足够 长 以 满足 所 有 的 状态 单元 的 输入 都 是 有 效 的 。 

在 附录 的 其 他 部 分 和 第 4 章 ， 我 们 通常 忽略 时 钟 信号 ， 因 为 我 们 假设 所 有 的 状态 单元 都 会 
在 同一 时 钟 边沿 更 新 。 一 些 状态 单元 会 在 所 有 的 时 钟 边 沿 被 写 人 ， 而 其 他 一 些 仅仅 在 确定 的 条 
件 下 被 写 人 (如 某 个 寄存 器 被 更 新 ) 。 在 这 种 情况 下 ， 我 们 会 使 用 一 个 显 式 的 写 信号 来 控制 这 
个 状态 单元 。 写 信号 同时 钟 信号 一 起 控制 状态 单元 的 更 新 ， 只 有 在 时 钟 边沿 且 写 信号 有 效 时 状 
态 单元 才 会 被 更 新 。 我 们 将 在 下 一 节 学 习 和 使 用 这 一 机 制 。 
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时 钟 周期 | 


图 B-7-2 组 合 逻 辑 块 的 输入 来 自 状态 单元 ， 同 时 其 输出 也 将 被 写 人 状态 单 元 。 时 钟 边 
沿 决 定 了 状态 单元 的 内 容 何 时 被 更 新 
边沿 触发 机 制 的 另 一 优势 是 可 以 将 一 个 状态 单元 同时 作为 同一 组 合 逻 辑 块 的 输入 和 输出 ， 
如 图 B-7-3 所 示 。 实 际 上 ， 在 这 种 情况 下 必须 要 防止 竞争 ， 同 时 要 保证 时 钟 周期 足够 长 。 这 一 
问题 将 在 B. 11 节 讨论 。 
现在 我 们 已 经 讨论 了 时 钟 是 如 何 用 来 更 新 状态 单元 的 ， 我 们 将 讨论 如 何 构建 这 种 状态 单元 。 











图 B-7-3 ”边沿 触发 策略 允许 一 个 状态 单元 在 一 个 时 钟 周期 内 被 读 写 ， 前 提 是 在 这 个 时 钟 周期 
内 没有 会 导致 不 确定 值 的 竞争 。 因 此 时 钟 周期 必须 足够 长 ， 在 有 效 时 钟 沿 到 来 前 所 
有 状态 单元 的 输入 都 是 有 效 的 
邯 ] 精 解 设计 者 经 常 发 现 ， 在 大 多 数 状态 单元 中 ， 使 得 少量 的 状态 单元 在 相反 的 时 钟 沿 进 
行 状态 变化 非常 有 用 。 但 是 在 使 用 这 种 方法 时 需要 十 分 小 心 ， 因 为 会 影响 到 状态 单元 
的 输入 和 输出 。 为 什么 设计 者 还 要 这 么 做 呢 ? 考虑 这 样 的 情况 ， 一 部 分 作为 状态 单元 
输入 或 者 输出 的 组 合 逻 辑 十 分 小 以 至 于 它们 可 以 在 半 个 周期 内 完成 ， 而 不 是 通常 的 完 
整 时 钟 周期 。 因 此 状态 单元 可 以 在 半 个 周期 的 时 钟 边沿 被 写 入 ， 因 为 它 的 输入 和 输出 
在 半 个 时 钟 后 期 都 是 有 效 的 。 这 种 技术 经 常 被 用 在 寄存 器 文件 (register file) 中 ， 在 寄 
存 器 文件 中 ， 简 单 的 寄存 器 文件 读 写 通常 发 生 在 半 个 周期 。 第 4 章 使 用 这 种 策略 来 减少 
流水 线 开 销 。 


信和 寄存 器 文件 : 包含 一 系列 寄存 器 的 状态 单元 ， 通 过 提供 一 个 访问 的 寄存 器 号 可 以 读 写 这 些 
寄存 器 。 


B. 8 存储 元 件 : 触发 器 、 锁 存 器 和 寄存 器 


在 本 节 及 下 一 节 中 ， 我 们 将 讨论 存储 元 件 的 基本 原理 ， 从 触发 器 、 锁 存 器 开始 ， 再 介绍 寄 
存 器 文件 ， 最 后 介绍 存储 器 。 所 有 的 存储 元 件 都 存储 着 一 些 状 态 : 存储 元 件 的 输出 不 仅 取 决 于 
当前 的 输入 ， 而 且 与 当前 存储 的 数据 有 关 。 因 此 所 有 包含 存储 元 件 的 逻辑 块 都 包含 有 状态 信 
息 ， 属 于 时 序 逻 辑 。 

最 简单 的 存储 元 件 类 型 是 无 时 钟 的 ， 即 这 些 元 件 都 没有 任何 的 时 钟 输入 。 因 为 无 时 钟 的 锁 
存 器 是 最 简单 的 存储 元 件 ， 所 以 我 们 将 先 讨论 这 种 元 件 ， 尽 管 在 本 节 中 我 们 只 使 用 带 时 钟 的 存 
储 元 件 。 图 B-8-1 为 一 个 S-R 锁 存 器 ( set-reset 锁 存 器 ) ， 该 锁 存 器 由 一 对 或 非 门 构成 (或 非 


门 即 一 个 或 门 加 一 个 反 向 器 ) 。 输 出 信号 CQ 和 @ 表示 存储 的 数据 及 其 反 向 数据 。 当 S 和 有 都 没 
有 被 激 无 效 时， 交叉 耦合 的 或 非 门 就 是 一 个 反 向 
器 ， 存 储 先前 的 0 和 @ 的 值 。 Q 
例如 ， 如 果 输 出 8 为 真 ， 下 面 的 反 向 器 将 产 
生 一 个 值 为 假 的 输出 〈 也 就 是 0) ， 这 个 输出 又 成 
为 上 面 反 向 器 的 输入 ， 上 面 的 反 向 器 产生 一 个 值 


为 真 的 输出 ， 即 0， 之 后 一 直 循环 下 去 。 如 果 5 为 6 
有 效 信号 ， 输 出 @ 的 值 拉 低 ，@ 的 值 被 拉 高 ; 如 

果 信 号 R 有 效 ， 则 输出 @ 为 假 ， 输 出 信号 @ 被 拉 ”图 B-8-1 一 对 交叉 耦合 的 NOR (或 非 门 ) 
高 。 如 果 S 和 及 都 有 效 ， 则 O 和 0 最 后 的 数值 将 可 以 存储 一 位 数据 。 输 出 信号 0 
被 存储 在 交叉 耦合 结构 内 。 同 时 将 5 入 置 为 有 取 反 后 得 到 0， 再 次 @ 取 反 后 
效 信号 ， 可 能 会 导致 错误 的 操作 : 这 取决 于 S 和 pi hii 
是 如 何 被 拉 高 的 ， 对 锁 存 器 来 说 ， 结 果 可 能 会 不 Se 


停 地 摆动 ， 也 可 能 处 于 亚 稳 态 (这 部 分 将 在 B. 11 
节 中 详细 介绍 ) 。 

这 种 交叉 耦合 结构 是 我 们 构造 复杂 存储 元 件 的 基本 结构 ， 构 造 出 来 的 复杂 存储 元 件 可 以 
存储 数据 。 这 些 存 储 元 件 包 含 额外 的 门 用 来 存储 信号 ， 并且 在 包含 时 钟 时 对 存储 的 数据 状 
态 进行 更 新 。 下 一 节 将 讲述 如 何 构建 这 些 存储 元 件 。 


B. 8. 1 触发 器 和 锁 存 器 


触发 器 (人 Hp-flop) 和 锁 存 器 (latch) 是 最 简单 的 存储 元 件 。 在 触发 器 和 锁 存 器 中 ， 输 出 
信号 的 值 都 与 存储 元 件 中 存储 的 状态 一 致 。 而 且 ， 与 上 面 提 到 的 5-R 锁 存 器 不 同 ， 从 现在 开 
始 ， 我 们 使 用 的 所 有 触发 器 和 锁 存 器 都 是 带 时 钟 的 ， 这 意味 着 这 些 存 储 元 件 将 包含 时 钟 输入 信 
号 ， 并 且 时 钟 将 触发 存储 状态 的 变化 。 触 发 器 与 锁 存 器 间 的 差别 在 于 ， 引 起 存储 状态 发 生变 化 
的 时 钟 位 置 不 同 。 在 一 个 包含 时 钟 的 锁 存 器 中 ， 只 要 时 钟 信号 有 效 ， 输 入 信和 号 发 生变 化 就 会 引 
起 存储 状态 的 变化 。 然 而 在 触发 器 中 ， 只 有 在 时 钟 信号 的 边沿 ， 存 储 元 件 的 状态 才 会 变化 。 因 
为 本 文中 ， 我 们 使 用 边沿 触发 的 时 钟 方法 ， 即 存储 状态 只 在 时 钟 边沿 发 生变 化 ， 因 此 我 们 只 使 
用 触发 器 。 触 发 器 大 都 由 锁 存 器 构成 ， 因 此 我 们 先 介绍 简单 的 带 时 钟 的 锁 存 器 ， 介 绍 完 它 的 一 
些 操作 后 ， 再 介绍 由 这 些 锁 存 器 构成 的 触发 器 的 一 些 操作 。 


2 触发 器 : 一 种 存储 元 件 ， 它 的 输出 与 内 部 存储 的 状态 一 致 ， 并 且 内 部 状态 只 在 时 钟 的 边沿 
发 生变 化 。 

2 锁 存 器 : 一 种 存储 元 件 ， 它 的 输出 与 内 部 存储 的 状态 一 致 ， 并 且 当时 钟 有 效 时 ， 只 要 输入 
发 生变 化 ， 存 储 状 态 就 会 随 之 发 生变 化 。 


对 计算 机 应 用 程序 来 说 ， 和 触发 器 和 锁 存 器 的 功能 都 是 存储 信号 。 一 个 D 锁 存 器 或 D 触发 
器 (D flip-flop) 将 输入 的 数据 信号 存储 在 内 部 元 件 中 。 尽 管 有 很 多 类 型 的 锁 存 器 和 触发 器 ， 
但 我 们 只 需要 D 型 的 。 一 个 D 锁 存 器 包含 两 个 输入 和 两 个 输出 。 两 个 输入 中 一 个 是 要 存储 的 
数据 (D) ， 一 个 是 时 钟 信号 〈C) ， 时 钟 信号 用 来 指示 锁 存 器 什么 时 候 读 取 输入 D 的 值 并 进行 
存储 。 输 出 信号 就 是 内 部 状态 CQ 和 其 反 向 信号 0。 当 输入 时 钟 C 有 效 时 ， 锁 存 器 称 为 打开 状 
态 ， 此 时 输出 信号 0 的 值 为 输入 信号 D 的 值 。 当 输入 时 钟 无 效 时 ， 锁 存 器 处 于 关闭 状态 , 此 区-51 
时 锁 存 器 的 输出 C0， 等 于 锁 存 器 最 后 一 次 打开 时 所 存储 的 数据 。 
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号 ”触发 器 : 一 个 包含 一 个 输入 数据 的 触发 器 ， 这 类 触发 器 只 在 时 钟 信号 的 边沿 ， 才 将 输入 
信号 存储 到 内 部 元 件 中 。 


图 B-8-2 显示 了 如 何 用 交叉 耦合 的 或 非 门 、 两 个 额外 的 门 来 构造 D 锁 存 器 。 由 于 当 锁 存 
器 处 于 打开 状态 时 ， 输 出 @ 的 值 随 输 入 也 的 改变 而 变化 ， 因 此 这 种 结构 有 时 也 称 为 透明 锁 
存 器 。 图 B-8-3 显示 了 D 锁 存 器 是 如 何 工 作 的 ， 图 中 假设 输出 @ 初始 化 为 假 ， 并 且 D 最 先 


变化 。 





图 B-8-2 一 个 用 或 非 门 实现 的 D 锁 存 器 。 如 果 其 他 的 输入 为 0， 则 或 非 门 只 作为 反 
向 器 使 用 。 因 此 ， 交 叉 耦 合 的 或 非 门 具 有 在 输入 时 钟 C 有 效 时 才 进 行 存 
储 ， 此 时 ,输入 DD 将 蔡 代 @， 并 被 存储 起 来 。 在 时 钟 信号 C 由 有 效 变 为 
无 效 时 ， 必 须 保证 输入 信号 D 的 稳定 


正如 前 面 提 到 的 那样 ， 我 们 使 用 触发 器 作为 基本 构造 单元 ， 而 不 是 使 用 锁 存 器 。 触 发 器 不 
是 透明 的 : 它们 的 输出 只 在 时 钟 边沿 发 生变 化 。 一 个 触发 器 可 以 设计 成 在 时 钟 上 升 沿 或 下 降 沿 
进行 触发 ， 在 本 书 的 设计 中 我 们 可 以 使 用 任意 一 种 类 型 。 图 B-8-4 显示 了 如 何 用 一 对 D 锁 存 器 
来 构造 下 降 沿 触发 的 D 触发 器 。 在 D 触发 器 中 ， 输 出 在 时 钟 边沿 存储 。 图 B-8-5 显示 了 这 个 D 
触发 器 是 如 何 操作 的 。 





Ce 


图 B-8-3 DD 锁 存 器 的 操作 ， 假 设 输出 信号 被 初始 化 为 无 效 信号 。 当 时 钟 C 有 效 时 ， 
B-52 锁 存 器 被 打开 ， 输 出 信号 @ 的 值 被 赋 为 输入 D 的 值 








图 B-8-4 下 降 沿 触发 的 D 触发 器 。 第 一 个 锁 存 器 称 为 主 锁 存 器 。 当 输入 时 钟 C 有 效 时 ， 主 锁 存 器 
打开 ,输入 数据 D。 当 输入 时 钟 C 被 拉 低 时 ， 主 锁 存 器 关闭 ,但 第 二 个 锁 存 器 打开 ， 并 
且 主 锁 存 器 的 输出 作为 第 二 个 锁 存 器 的 输入 信号 。 第 二 个 锁 存 器 称 为 从 锁 存 器 
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图 B-8-5 下 降 沿 触发 的 D 触发 器 的 操作 ， 假 设 其 输出 被 初始 化 为 无 效 。 当 时 钟 C 从 有 效 变 为 无 效 
时 ， 输 出 @ 将 输入 信号 D 的 值 进 行 存储 。 与 图 B-8-3 中 的 D 锁 存 器 相 比 ， 在 带 时 钟 的 锁 
存 器 中 ， 只 要 时 钟 C 为 高 电 平 ， 本 相反 触发 器 只 在 时 钟 
发 生 转 变 时 才 发 生变 化 


下 面 是 上 升 沿 触发 的 D 触发 器 的 Verilog 代码 ， 假 设 信号 C 为 输入 时 钟 ，D 为 输 和 数据， 
module DFF(clock,D,0Q,Qbar); 
input clock, D; 
output reg Q; // Q is a reg since it is assigned in an 
// always block 
output Qbar; 
assign Qbar = ~ 0Q; // Qbar is always just the inverse 
// of Q 
always @(posedge clock) // perform actions whenever the 
// clock rises 
Q = 0D; 
endmodule 
由 于 输入 DD 在 时 钟 边沿 被 取样 ， 因 此 在 时 钟 边沿 之 前 和 之 后 的 这 段 时 间 内 ，D 必须 保持 有 
效 。 在 时 钟 发 生 跳 变 前 ， 输 入 信号 需要 保持 有 效 的 最 短 时 间 ， 称 为 建立 时 间 (setup time); 在 
时 钟 跳 变 后 ， 输 入 信号 需要 保持 有 效 的 最 短 时 间 ， 称 为 保持 时 间 (hold time)。 因 此 任何 触发 
器 (或 任何 由 触发 器 构造 的 设备 ) 的 输入 必须 在 一 个 时 间 窗 口内 保持 有 效 ， 这 个 时 间 窗 口 开 
始 于 时 钟 跳 变 前 &-o 时 间 ， 结 束 于 时 钟 跳 变 后 的 bus 时 间 ， 如 图 B-8-6 所 示 。B. 11 节 中 ， 详 细 


介绍 了 时 钟 和 时 序 约束 ， 包 括 触发 器 的 传播 延 时 。 


人 “建立 时 间 : 在 时 钟 发 生 跳 变 前 ， 输 入 信号 必须 保持 有 效 的 最 短 时 间 。 
仿 “ 保持 时 间 : 在 时 钟 跳 变 后 ， 输 入 信号 需要 保持 有 效 的 最 短 时 间 。 


我 们 可 以 使 用 D 触发 器 的 阵列 来 构建 一 个 寄存 器 ， 构 建 的 寄存 器 可 以 存储 多 位 数据 ， 比 如 
一 个 字 节 或 一 个 字 。 在 第 4 章 中 ， 我 们 将 在 数据 通路 中 使 用 寄存 器 。 


建立 时 间 保持 时 间 
一 


Re 


图 B-8-6 下 降 沿 触发 的 D 触发 器 的 建立 时 间 和 保持 时 间 。 输 入 信号 在 时 钟 跳 变 前 和 跳 变 后 都 
需要 保持 一 段 时 间 的 有 效 值 。 时 钟 跳 变 前 ， 输 入 信和 号 需要 保持 有 效 的 最 短 时 间 称 为 
建立 时 间 ; 时钟 跳 变 后 ， 输 入 信号 需要 保持 有 效 的 最 短 时 间 称 为 保持 时 间 。 如 果 违 
反 了 最 小 建立 时 间 和 最 小 保持 时 间 ， 触 发 器 的 输出 可 能 变 得 不 准确 ， 正 如 B. 11 节 
中 要 讲 的 。 保 持 时 间 要 么 为 0， 要 么 是 一 个 很 小 的 值 ， 因 此 不 需要 担心 建立 时 间 
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B. 8.2 ”寄存 器 文件 


寄存 器 文件 是 数据 通路 中 一 个 重要 的 核心 结构 。 寄 存 器 文件 包含 一 组 可 读 写 的 寄存 器 ， 寄 
存 器 的 读 写 是 通过 指定 寄存 器 号 进行 的 。 通 过 一 个 由 D 触发 器 构成 的 寄存 器 阵列 ， 并 对 每 一 个 
输入 或 输出 端口 添加 译 码 器 ， 就 可 以 构 
造 出 一 个 寄存 器 文件 。 如 果 对 寄存 器 文 
件 只 进行 读 操作 ， 不 会 改变 其 状态 ， 因 
此 我 们 只 需 提 供 一 个 寄存 器 号 作为 输入 ， 
输出 的 结果 即 为 该 寄存 器 号 对 应 寄存 器 
中 的 数据 。 对 于 写 操作 ， 我 们 需要 三 个 
输入 : 寄存 器 号 、 要 写 和 人 的 数据 和 一 个 
控制 写 人 的 时 钟 。 第 4 章 中 ， 我 们 使 用 
了 一 个 包含 两 个 读 端 口 和 一 个 写 端 口 的 
寄存 器 文件 。 该 寄存 器 文件 如 图 B-8-7 所 
示 。 其 中 读 端 口 可 以 通过 一 对 多 路 选择 
器 来 实现 ， 每 一 个 多 路 选择 器 的 位 宽 与 图 B-8-7 一 个 包含 两 个 读 端 口 和 一 个 写 端 口 的 寄存 器 文 








读 寄 存 器 号 1 





读 寄存 器 号 2 


寄存 器 堆 
写 寄存 器 号 


















和 


寄存 器 文件 中 单个 存储 器 的 位 宽 相 等 。 ehh eerie tt 
图 B-8-8 为 32 位 宽 寄存 器 文件 读 端口 的 
实现 方法 。 

读 寄 存 器 号 1 





读 寄存 器 号 2 























图 B-8-8 ”对 于 包含 两 个 读 端 口 、n 个 寄存 器 的 寄存 器 文件 ， 可 以 通过 一 对 n 选 1 多 路 选择 句 来 实现 
读 端口 ， 每 个 多 路 选择 器 为 32 位 宽 。 读 操作 寄存 器 号 用 来 作为 多 路 选择 器 的 选择 信号 。 

图 B-8-9 显示 了 如 何 实现 写 端口 
实现 寄存 器 写 端 口 有 点 复杂 ， 因 为 我 们 只 能 更 改 需要 更 改 的 寄存 器 内 容 。 为 了 达到 这 个 目 
的 ， 可 以 使 用 一 个 译 码 器 来 生成 一 个 信号 ， 用 该 信号 来 决定 要 对 哪个 寄存 器 进行 写 操作 。 
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图 B-8-9 显示 了 如 何 实现 一 个 寄存 器 文件 的 写 端 口 。 需 要 注意 的 是 ， 触 发 器 的 状态 只 在 时 钟 边 
沿 发 生变 化 。 在 第 4 章 中 ,我 们 明确 地 对 寄存 器 文件 中 的 写 信 号 打 了 勾 ， 并 且 假 设 图 B-8-9 中 
的 时 钟 默认 被 加 入 。 





写 信号 


寄存 器 数据 





图 B-8-9 寄存 器 文件 的 写 端口 通过 一 个 译 码 器 来 实现 ， 译 码 器 与 写 控制 信号 一 起 生成 信号 C 输入 到 寄 
存 器 中 。 所 有 的 三 个 输入 〈 寄 存 器 号 、 数 据 、 写 控制 信号 ) 都 存在 建立 时 间 和 保持 时 间 的 约 
束 ， 以 保证 正确 的 数据 被 写 到 寄存 器 文件 中 


如 果 在 一 个 时 钟 周期 中 ， 对 寄存 器 同时 进行 读 和 写 ， 将 会 发 生 什么 ? 因为 写 寄存 器 文件 出 
现在 时 钟 边沿 ， 因 此 在 读 操作 时 ， 寄 存 器 是 有 效 的 ， 正 如 图 B-7-2 中 看 到 的 那样 。 读 出 的 数据 
将 是 上 一 个 时 钟 周期 写 人 的 数据 。 如 果 我 们 想 要 读 出 当前 正在 写 人 的 数据 ， 则 需要 在 寄存 器 内 
部 或 外 部 添加 额外 的 逻辑 。 第 4 章 广泛 使 用 了 这 类 寄存 器 。 


B. 8.3 用 Verilog 描述 时 序 逻 辑 


用 Verilog 来 描述 时 序 逻 辑 ， 我 们 必须 知道 如 何 生 成 一 个 时 钟 ， 如 何 描述 何 时 将 数据 写 人 
寄存 器 中 ， 及 如 何 指定 时 序 控制 。 我 们 先 来 描述 一 个 时 钟 。 时 钟 不 是 Verilog 中 预定 义 的 变量 ， 
我 们 可 以 在 一 个 声明 前 使 用 符号 # n 来 生成 一 个 时 钟 ， 这 将 导致 该 声明 在 n 个 时 钟 延迟 之 后 被 
执行 。 在 大 多 数 Verilog 模拟 器 中 ， 产 生 一 个 时 钟 来 作为 外 部 输入 也 是 可 以 的 ， 这 将 允许 用 户 
在 模拟 过 程 中 ， 指 定 需 要 模拟 器 运行 的 时 钟 周期 数 。 

图 B-8-10 中 的 代码 实现 了 一 个 简单 的 时 钟 ， 该 
时 钟 高 电 平和 低 电 平 都 保持 一 个 模拟 时 间 单元 ， 之 
后 就 转化 为 反 向 状态 。 为 了 实现 时 钟 ， 我 们 也 使 用 图 B_8.10 一 个 时 钟 的 Verilog 描述 
了 延迟 和 阻塞 赋值 语句 。 

接 下 来 ， 我 们 必须 实现 边沿 触发 寄存 器 的 操作 。 在 Verilog 中 ， 这 是 通过 使 用 always 块 
的 敏感 信号 列表 实现 的 ， 并 且 相应 的 使 用 posedge 或 negedge 来 指定 上 升 沿 触发 还 是 下 降 沿 





reg clock; // clock is a register 
always 
#1 clock = 1; #1 clock = 0; 
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触发 。 因 此 ， 下 面 的 Verilog 代码 中 ,在 时 钟 上 升 沿 中 ， 寄 存 器 A 写 和 数据 b。 

通过 本 章 内 容 及 第 4 章 的 Verilog 部 分 ,我 们 将 勾画 一 个 上 升 沿 触发 的 设计 。 图 B-8-11 显 
示 了 一 个 MIPS 寄存 器 文件 的 Verilog 代码 ， 代 码 中 包含 了 两 次 读 操作 和 一 次 写 操 作 ， 其 中 只 
写 操 作 是 包含 时 钟 的 。 


图 小 测验 

图 B-8-11 中 寄存 器 文件 的 Verilog 代码 中 ， 正 在 进行 读 操作 的 寄存 器 对 应 的 输出 端口 使 用 
的 是 连续 赋值 语句 。 但 是 寄存 右 的 写 和 信使 用 的 是 always 块 。 下 面 哪 一 项 是 其 原因 ? 

a. 没有 特殊 原因 ， 只 是 为 了 方便 。 

b. 因为 Datal 和 Data2 是 输出 端口 ，WriteData 是 输入 端口 。 

c. 因为 读 操作 是 一 个 组 合 事件 ， 而 写 操作 则 是 一 个 时 序 事件 。 








reg [31:0] A; 
wire [31:0] b; 


always @(posedge clock) A <= b; 


module registerfile (Readl,Read?,WriteReg,WriteData,RegWrite, 
Datal,Data2,clock); 


input [5:0] Readl,Read2 ,WriteReg; // the register numbers 
// to read or write 
input [31:0] WriteData; // data to write 
input RegWrite, // the write control 
clock; // the clock to trigger write 
output [31:0] Datal, Data2; // the register values read 
reg [31:0] RF [31:0]; // 32 registers each 32 bits long 


RF[LRead1]; 
RF[Read2]; 





assign Datal 
assign Data2 


I 


always begin 
// write the register with new value if Regwrite is 
// high 
@(posedge clock) if (RegWrite) RF[WriteReg] 《= 
WriteData; 
end 
endmodule 





B-8-11 用 行为 级 描述 的 MIPS 寄存 嚣 文件。 该 寄存 器 文件 在 时 钟 上 升 沿 进 行 写 操作 


B. 9 存储 元 件 : SRAM 和 DRAM 


寄存 器 和 寄存 器 文件 可 以 作为 基本 构建 单元 来 构造 小 容量 存储 器 ， 但 是 ， 大 容量 存储 器 要 
么 是 用 SRAM (static random access memory ， 静 态 随 机 访问 存储 器 ) ， 要 么 是 用 DRAM (动态 随 
机 访问 存储 器 ) 来 构建 。 我 们 先 来 介绍 比较 简单 的 SRAM ， 再 来 介绍 DRAM。 


B. 9.1 SRAM 


SRAM 是 包含 存储 阵列 的 集成 电路 ， 存 储 阵列 通常 包含 一 个 访问 端口 ， 该 端口 可 以 用 来 表 
示 读 或 写 。SRAM 对 任 一 单元 的 访问 时 间 都 是 固定 的 ， 尽管 读 操作 和 写 操作 的 特征 不 同 。 依 据 
可 寻 址 单元 和 每 个 可 寻 址 单元 的 位 宽 ，SRAM 芯片 形成 一 个 特殊 的 格局 。 例 如 ， 一 个 4M x8 的 
SRAM， 可 以 提供 4M 的 人 人口， 每 一 个 人 口 包 含 8 位 二 进 制 数据 。 因 此 它 共 有 22 条 地 址 线 
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(4M =2”) 、8 位 宽 的 输出 和 8 位 宽 的 输入 。 与 ROM 类 似 ， 可 寻 址 单元 的 个 数 称 为 高 度 ， 每 个 
可 寻 址 单元 的 位 宽 称 为 宽度 。 因 为 多 种 技术 
原因 ， 最 新 最 快 的 SRAM 常常 使 用 较 罕 的 配 
置 x1 和 x4。 图 B-9-1 显示 了 一 个 2M x 16 
的 SRAM 的 输入 和 输出 信号 。 

输出 使 能 一 一 一 > 输出 [15-0] 


”SRAM: 一 种 存储 器 ， 其 中 的 数据 是 静态 。 写 使 能 
存储 的 (如 和 触发 器 ) ， 而 不 是 动态 存储 的 
(如 DRAM)。SRAM 比 DRAM 快 , 但 是 Dinl15-0] 5\ > 
密度 较 小 ， 每 位 的 价格 更 高 。 





图 B-9-1 一 个 32K x8 的 SRAM， 其 中 包括 21 位 


为 了 启动 读 写 操作 ， 片 选 信号 必须 处 于 地 址 线 (32K =2”) 和 16 位 输入 线 ，3 
有 效 状 态 。 为 读 取 数 据 ， 必 须 激活 用 来 控制 条 控制 线 和 16 位 输出 线 


被 地 址 选中 的 数据 能 否 驱动 到 管 脚 上 的 输出 使 能 信号 。 这 样 ， 输 出 使 能 信号 允许 多 个 存储 器 连 
接 到 单 输出 总 线 上 ， 并 且 用 于 决定 由 哪个 存储 器 来 驱动 总 线 。SRAM 读 取 数据 所 需 的 时 间 通 党 
被 定义 为 从 输出 使 能 信号 有 效 一 直到 数据 输出 总 线 上 为 止 。2004 年 ， 拥 有 最 快 的 CMOS 部 件 的 
SRAM 的 读 取 时 间 为 2 ~4ns， 但 这 样 的 SRAM 容量 较 小 ， 数 据 宽度 较 窄 ， 更 大 部 件 的 SRAM 的 
读 取 时 间 为 8 ~20ns。2004 年 ,已 经 实现 的 最 大 的 SRAM 能 容纳 32M 位 数据 。 过 去 5 年 间 ， 消 
费 类 产品 和 数码 设备 对 低 功 耗 SRAM 的 需求 增长 很 快 ， 这些 SRAM 通常 具有 更 低 的 待机 和 访问 
功 耗 , 但 通常 要 比 普通 的 SRAM 慢 5 ~10 倍 。 最 近 ， 类 似 同步 DRAM (下 一 节 讨 论 ) 的 同步 
SRAM 也 开发 出 来 了 。 

进行 写 操作 时 ， 输 入 端 必须 提供 要 写 人 的 数据 、 目 的 地 址 以 及 写 控制 信号 。 当 写 使 能 信号 
和 片 选 信号 为 真 时 ， 数 据 线 上 的 值 就 写 人 由 地 址 线 指定 的 地 址 单元 。 正 如 我 们 在 介绍 D 触发 器 
和 D 锁 存 器 时 所 提 到 的 ， 该 操作 期 间 要 保证 地 址 线 和 数据 线 上 的 信和 号 量 保持 的 时 间 足 够 长 。 同 
时 ， 写 使 能 信号 不 是 时 钟 触发 边沿 ， 而 是 有 最 小 宽度 约束 的 脉冲 。 写 操作 完成 时 间 则 受到 建立 
时 间 、 保 持 时 间 以 及 写 使 能 脉冲 宽度 的 制约 。 ”选择 信号 0 使 能 信号 

大 容量 的 SRAM 不 能 通过 寄存 器 文件 的 方 -4 
式 组 建 。 其 根本 原因 在 于 寄存 器 文件 中 的 32-1 数据 0 
多 路 选择 器 是 切实 可 行 的 ， 但 想 把 64K-1 多 路 
选择 器 用 于 64K x 1 SRAM 是 不 现实 的 。 大 容 
量 存储 器 不 采用 多 路 选择 器 ， 而 是 通过 一 条 公 
共 信 号 线 ( 称 为 位 线 ) 来 完成 ， 这 样 存 储 阵 
列 中 有 多 个 存储 单元 就 能 被 选中 。 为 了 满足 多 。 选择 信号 2 
个 存储 单元 驱动 一 条 信号 线 ， 需 要 用 到 三 态 组 
冲 装置 。 三 态 缓冲 器 有 两 个 输入 : 数据 信号 线 数据 2 
和 输出 使 能 信号 ， 还 有 一 个 输出 信号 ， 输 出 信 
号 有 三 种 状态 : 有 效 、 无 效 或 高 阻 。 如 果 输 出 选择 信号 3 
使 能 信号 有 效 ， 其 输出 值 为 输入 值 或 输入 值 取 
非 。 和 否则 ， 其 输出 为 高 阻 态 ， 这 时 将 由 其 他 的 数据 3 
输出 使 能 有 效 的 三 态 缓冲 器 共享 输出 数据 。 图 B-9-2 用 4 个 三 态 门 实现 多 路 选择 器 。4 个 






选择 信号 1 


数据 1 


_9_2 措 ; 组 二 太 4 可 选择 的 输入 中 只 有 一 个 有 效 。 三 态 
wu oo 缓冲 器 在 输出 使 能 信和 号 无 效 时 输出 高 
译 码 输入 的 多 路 选择 器 。 该 电路 的 关键 在 于 生态 ， 在 给 国 值 能 有 效 计 双 动 共 可 的 


要 考虑 到 任意 时 刻 至 多 允许 一 个 缓冲 器 的 输出 输出 线 
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使 能 有 效 ; 否则 ， 三 态 缓 冲 器 将 会 发 生 输出 线 竞争 现象 。 在 SRAM 中 ， 每 个 存储 单元 使 用 三 态 
缓冲 器 ， 就 能 实现 存储 单元 对 输出 信号 线 共享 。 采 用 分 布 式 的 三 态 缓冲 器 比 大 规模 集中 式 的 多 
路 选择 器 效率 更 高 。 三 态 缓冲 器 通常 被 谋 入 到 组 成 SRAM 的 触发 器 中 。 图 B-9-3 描述 了 小 容量 
的 4x2 SRAM 的 实现 ， 其 中 用 到 了 带 有 使 能 输入 的 D 锁 存 器 来 控制 三 态 输出 。 

图 B-9-3 的 设计 电路 中 没 用 到 多 路 选择 器 ， 但 是 它 还 是 用 到 了 大 容量 的 译 码 器 和 许多 字 
线 。 例 如 , 在 4Mx8 型 SRAM 中 ， 我 们 需要 用 到 22-4M 的 译 码 器 ， 以 及 4M 条 字 线 〈 用 于 各 触 
发 器 使 能 ) ! 为 解决 这 个 问题 ， 大 容量 的 存储 器 被 做 成 矩阵 阵列 ， 并 且 还 用 到 了 二 级 译 码 装置 。 
图 B-9-4 表明 了 4M x8 型 SRAM 是 如 何 利用 二 级 译 码 来 实现 的 。 众 所 周知 ， 二 级 译 码 对 于 实现 
DRAM 的 运作 至 关 重 要 。 





Din[D] Din[] 
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Dout[1] Dout[0] 

图 B-9-3 4 x2 SRAM 的 基本 结构 ， 其 中 采用 译 码 器 作为 片 选 信号 。 被 激活 的 单元 采用 三 态 输 出 连 
接 到 垂直 位 数据 线 ， 而 选择 单元 的 地 址 信息 则 通过 水 平地 址 线 中 的 某 条 线 〈 称 为 字 线 ) 

传送 。 为 简单 起 见 ， 此 处 省 略 了 输出 使 能 信号 和 片 选 信号 ， 但 它们 很 容易 通过 与 门 接 人 


4K x 4K x 4K x 4Kx 4Kx 4K x 4Kx 
1024 1024 1024 1024 1024 1024 1024 
SRAM | SRAM SRAM SRAM SRAM | SRAM | SRAM 











Dout7 Dout6 Dout5 Dout4 Dout3 Dout2 Doutl Dout0 
图 B-9-4 用 4K x1024 阵列 实现 4M x8 SRAM。 译 码 器 1 产生 8 个 4Kx1024 阵列 的 地 址 ， 然 后 由 多 
路 选择 器 (Mux) 从 每 个 1024 位 阵列 中 选 出 1 位 ， 该 设计 远 比 单 级 译 码 器 简单 ， 而 单 级 
译 码 器 需要 一 个 庞大 的 多 路 选择 器 。 实 际 上 ， 现 在 这 个 大 小 的 SRAM 可 能 使 用 更 多 数量 的 
模块 ， 并且 每 一 块 会 更 小 
近年 来 ,我们 看 到 了 同步 SRAM 和 同步 DRAM 的 发 展 历程 。 同 步 RAM 的 优点 在 于 它 能 在 
存储 阵列 中 将 顺序 地 址 中 的 数据 以 突 发 方式 传输 。 突 发 传送 的 大 小 同 起 始 地 址 和 突 发 长 度 有 
关 。 同 步 RAM 的 卓越 之 处 在 于 它 能 将 突 发 数据 快速 存 取 ， 而 无 需 指 定额 外 的 地 址 位 。 但 突 发 
数据 中 的 连续 字 位 受到 了 时 钟 的 控制 。 在 突 发 传输 模式 下 ， 省 去 指定 地 址 的 开销 将 大 大 增强 传 
输 相 邻 数据 的 效率 。 正 因为 这 个 优点 ， 同 步 SRAM 和 同步 DRAM 在 计算 机 存储 系统 中 大 量 应 
用 。 在 下 一 节 和 第 5 章 中 ， 更 详细 地 讨论 了 存储 系统 中 同步 DRAM 的 使 用 。 


B. 9.2 DRAM 


在 静态 RAM (SRAM) 中 ， 数 据 保存 在 一 对 反 向 门 电路 中 ， 所 以 只 要 给 它 供电 ， 其 内 部 数 
据 一 直 会 保留 。 而 在 动态 RAM (DRAM) 中 ， 数 据 是 以 电荷 量 的 形式 被 保存 在 电容 中 ， 通 过 唱 
体 管 来 存 取 数 据 。 在 动态 RAM 中 ， 对 每 一 位 数据 的 读 取 只 用 到 了 一 个 晶体 管 ， 其 密度 更 高 ， 
单位 价格 更 低 。 相 比 而 言 ， 静 态 RAM 中 单位 比特 (每 一 位 ) 就 需要 4 ~6 个 晶体 管 。 由 于 动态 
RAM 中 的 数值 是 以 电荷 量 的 形式 保存 在 电容 中 ， 所 以 它 需要 不 断 刷新 来 保持 数值 。 这 就 是 该 
存储 结构 称 作 “动态 ”的 缘由 。 

为 实现 对 存储 单元 的 刷新 ， 我 们 需要 定期 读 出 该 内 容 并 且 回 写 到 原单 元 中 去 。 电 荷 量 通常 
能 维持 几 毫 秒 ， 相 当 于 1 000 000 个 时 钟 周期 。 目 前 ， 单 芯片 存储 控制 器 能 独立 完成 刷新 功能 。 
如 果 我 们 只 能 将 动态 RAM 中 的 内 容 逐 位 读 出 再 逐 位 回 写 ， 那 么 所 有 时 间 只 能 全 用 来 处 理 几 兆 
字 节 大 容量 存储 器 的 刷新 了 ， 根 本 没有 其 他 时 间 去 完成 真正 意义 上 的 数据 存 取 。 幸 好 在 动态 
RAM 中 也 采用 了 二 级 译 码 装置 ， 这 就 可 以 在 读 周期 后 紧 跟 一 个 写 周 期 实现 整 行 刷新 (共享 一 
条 字 线 ) 。 通 常 ， 刷 新 工作 只 占 了 动态 RAM 的 1% ~2% 的 时 间 ， 琵 下 的 98% ~99% 的 时 间 可 
以 用 来 处 理 外 界 的 数据 存 取 。 


邯 ] 精 解 动态 RAM 如 何 实现 读 / 写 存储 器 单元 的 信息 呢 ? 其 关键 元 件 是 晶体 管 ， 它 在 存 
储 单元 中 充当 了 开关 作用 ， 多 许 存放 在 电容 中 的 电荷 量 被 读 取 或 写 回 。 图 B-9-5 就 是 
单个 晶体 管 存储 单元 的 外 观 。 电 子 晶体 管 的 开关 作用 如 下 : 当 字 线 上 的 信号 有 效 时 ， 
开关 处 于 “ 关 ” 状 态 ， 将 电容 连 到 字 线 上 。 如 果 有 写 请 求 产 生 ， 相 应 的 写 入 数据 就 
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放 到 该 字 线 上 。 如 果 该 数值 为 1， 则 电容 被 充电 ; 否则 ,数值 为 0 时 电容 放电 。 由 于 
动态 RAM 必须 事先 检测 电容 中 

的 电量 ， 所 以 读 操作 显得 略为 ” 字 线 
复杂 。 通 常 ， 在 激活 字 线 准备 

读 出 数据 前 ， 该 信号 线 先 被 充 传输 晶体 管 
电 到 一 半 状 态 。 这 样 通过 激活 
字 线 ,电容 上 的 电荷 可 被 读 出 
到 位 线 。 这 时 位 线 只 需 往 高 电 了 





平 或 低 电 平方 向 稍稍 偏 移 便 能 
满足 要 求 ， 这 种 变化 能 通过 敏 
B63 感 放大 器 检测 到 。 


现行 存 取 和 列 存 取 ， 如 图 B-9-6 所 示 。 


实现 

其 中 行 存 取 选中 一 行 ， 然 后 激活 对 应 

的 数据 字 线 。 于 是 激活 态 的 行 所 在 的 所 有 列 的 内 容 被 保存 到 一 组 锁 存 器 之 中 。 列 存 取 则 是 从 列 
锁 存 器 中 选取 相应 的 数据 。 为 了 节省 管 脚 并 进一步 减少 封装 开销 ， 行 地 址 / 列 地 址 将 共享 地 址 
线 。 其 中 采用 RAS ( 行 存 取 选 通 脉 冲 ) 和 CAS ( 列 存 取 选 通 脉冲 ) 来 决定 是 行 还 是 列 地 址 。 
刷新 过 程 只 是 简单 地 将 列 信息 读 人 列 锁 存 器 ， 然 后 再 回 写 到 列 单元 中 去 。 于 是 在 一 个 周期 之 内 
就 可 以 完成 行 刷新 。 二 级 寻 址 方法 ， 再 加 上 中 间 转 换 电路 ， 会 导致 DRAM 的 存 取 时 间 变 长 。 一 
般 为 静态 RAM 的 5 ~ 10 倍 。2004 年 ， 典 型 的 DRAM 存 取 时 间 为 45 ~ 65ns，256Mbit 的 DRAM 
已 量 产 ，2004 年 第 一 季度 第 一 个 1GB 的 DRAM 样品 也 生产 出 来 了 。 因 此 ， 单 位 比特 低 成 本 的 
DRAM 是 实现 主 存 的 首选 ， 而 高 速 缓存 通常 由 SRAM 来 完成 。 


B-61 
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地 址 [10-0] 





数据 输出 


图 B-9-6 用 2048 x2048 阵列 组 成 4M x1 DRAM。 采用 11 位 地 址 选择 行 ， 然 后 再 锁 存 到 2048 个 1 位 
锁 存 器 中 。 一 个 多 路 选择 器 从 2048 个 锁 存 器 中 选择 输出 。RAS 和 CAS 信号 则 分 别 控制 地 
址 线 是 与 译 码 器 相连 还 是 与 列 多 选 器 相连 
读者 可 能 会 注意 到 ，64M x4 的 DRAM 在 每 次 行 存 取 时 能 同时 存 取 8K 位 ， 而 在 列 存 取 时 
就 丢弃 了 几乎 所 有 位 ， 只 剩 下 4 位 。DRAM 设计 师 早已 通过 DRAM 内 部 结构 实现 了 更 宽 的 带 
宽 。 这 个 过 程 可 以 完成 : 无 需 改变 行 地 址 ， 只 需 能 够 改变 列 地 址 即 可 ， 这 样 就 能 实现 对 列 锁 存 
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器 中 的 其 他 位 的 存 取 。 为 了 使 这 个 过 程 更 快 更 精确 ， 地 址 输入 被 同步 ， 这 样 产 生 了 目前 主要 使 
用 的 DRAM 形式 : 同步 DRAM 或 称 为 SDRAM。 

1999 年 以 来 ，SDRAM 成 为 大 多 数 基于 高 速 缓存 的 内 存 系统 中 存储 芯片 的 首选 。 在 同步 信 
号 控制 下 ，SDRAM 可 以 快速 访问 一 次 突 发 传输 中 一 行 顺序 传输 的 比特 流 。2004 年 ，DDRRAM 
( 双 倍 数据 传输 率 RAM) 是 使 用 最 多 的 SDRAM 类 型 。 之 所 以 称 为 双 倍数 据 传输 率 ， 是 因为 在 
外 部 时 钟 的 上 升 沿 和 下 降 沿 都 能 传输 数据 。 第 5 章 已 经 提 到 ， 这 些 模式 的 存储 器 有 利于 增加 主 
存 的 存 取 带宽 ， 从 而 进一步 匹配 CPU 和 高 速 缓存 的 速度 。 


B. 9. 3 纠 错 


因为 在 大 容量 存储 器 中 难免 发 生 数据 错误 ， 故 而 大 多 数 系 统 都 会 采用 各 种 校 验 码 来 检测 可 
能 的 数据 错误 。 最 简单 也 最 常用 的 是 奇偶 校 验 码 。 在 奇偶 校 验 码 中 ， 数 据 中 的 1 的 个 数 是 有 记 
录 的 。 如 果 记 录 数 为 奇数 ， 则 属于 奇 校 验 ， 和 否则 属于 偶 校 验 。 当 数据 往 内 存 写 人 时 ， 校 验 位 也 
被 写 上 1 或 0。 同 时 ， 当 数据 被 读 出 时 ， 该 位 也 被 读 出 并 校 验 。 当 内 存 中 的 校 验 位 同 读 出 的 校 
验 位 不 一 致 时 ， 说 明 数 据 出 错 。 

1 位 奇偶 校 验 能 检测 出 大 多 数 仅 有 一 位 出 错 的 数据 。 当 某 数据 有 两 位 出 错时 ，1 位 校 验 法 
就 可 能 不 再 奏效 。 实 际 上 ，1 位 校 验 法 能 测 出 任何 有 奇数 位 出 错 的 数据 。 但 因为 出 错位 数 超过 
3 位 的 概率 实在 很 小 ， 所 以 我 们 常用 1 位 校 验 码 来 检测 数据 中 是 否 有 一 位 出 错 。 遗 憾 的 是 ， 该 
方法 无 法 确定 哪 位 数字 出 错 。 

1 位 奇偶 校 验 是 一 种 检 错 码 (error detection code) ; 另 一 种 称 为 纠 错 码 (Error Correc- 
tion Code，ECC) 的 编码 则 既 能 检测 错误 ， 还 能 对 错误 进行 纠正 。 对 于 大 容量 主 存 ， 许 多 
系统 采用 的 纠 错 码 不 仅 能 检测 出 两 位 之 内 出 错 的 情况 ， 并 且 还 具有 纠正 功能 。 这 些 方法 
采用 多 位 编码 方式 , 例如， 对 主 存 实施 编码 的 最 常用 方法 是 每 128 位 数据 中 加 入 7 或 8 位 
纠 错 码 。 


邯 ] 精 解 1 位 奇偶 校 验 码 是 距离 为 2 的 编码 方法 ， 这 就 是 说 ， 对 于 数据 和 校 验 位 而 言 ， 任 何 
1 位 数字 的 改变 都 会 被 检测 出 该 数据 出 错 。 例 如 ， 当 改变 某 个 数据 位 时 ， 校 验 位 就 出 错 ; 
反之 亦 然 。 当 然 ， 如 果 我 们 同时 改变 两 位 ( 两 个 数据 位 ， 或 一 个 数据 位 和 一 个 校 验 位 )， 
那么 奇偶 校 验 位 同 数据 依旧 匹配 ， 也 就 无 法 检测 出 错误 了 。 因 此 ， 我 们 将 这 种 校 验 定义 为 
距离 为 2 的 校 验 码 。 

为 了 能 检测 出 多 于 1 个 的 错误 或 纠正 一 个 错误 ， 我 们 需要 距离 为 3 的 校 验 码 。 也 
就 是 说 ， 为 了 判别 带 校 验 码 的 数据 是 否 正确 ， 至 少 需要 有 3 位 数字 与 其 他 数据 不 同 。 
假设 存在 这 样 的 校 验 码 ， 并 且 数 据 中 有 一 位 出 错 ， 这 时 ， 我 们 就 能 检测 到 数据 中 有 
一 位 数字 出 错 ， 并 能 纠正 ; 如 果 有 两 位 数字 出 错 ， 我 们 能 检测 到 错误 的 发 生 ， 但 无 
法 纠正 它 。 请 参考 下 表 的 例子 ， 这 是 对 4 位 数据 项 的 距离 为 3 的 校 验 码 。 


0000 





0001 1001 100 
00 0 
or00 | L100 oo01 
on 00 
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为 了 说 明 校 验 过 程 ， 我 们 不 妨 以 0110 为 例 。0110 的 纠 错 码 是 011。 该 数据 发 生 一 位 
错误 的 可 能 情况 有 以 下 4 种 : 1110，0010，0100，0111。 请 读者 注意 ，011 既是 数据 0110 
的 校 验 码 ， 也 是 数据 0001 的 校 验 码 。 如 果 校 验 电 路 检测 到 某 数 值 有 一 位 数字 出 错 ， 它 就 
能 肯定 是 数据 0110 或 0001 出 错 。 由 于 0110 的 4 个 1 位 出 错 数 有 两 位 数字 同 数 据 0001 不 
同 ， 因 此 该 校 验 码 能 迅速 判断 是 0110 数据 有 误 ， 同 时 还 能 加 以 纠正 。 为 了 使 两 位 错误 能 
够 被 检测 出 来 ， 简 单 的 方法 就 是 发 生 两 位 错 的 所 有 组 合 都 有 另外 一 种 编码 。 使 用 相同 编码 
的 方法 使 码 字 中 有 三 位 不 同 。 但 是 如 果 想 纠正 2 位 错误 ， 就 会 得 到 错误 的 结果 ， 因 为 该 纠 
正 机 制 仅 对 1 位 出 错 有 用 。 如 果 我 们 想 实现 对 1 位、2 位 都 具有 纠 错 功 能 ， 那 就 需要 一 个 
距离 为 4 的 校 验 码 。 

我 们 在 上 例 中 将 数据 和 校 验 码 给 区 分 出 来 了 。 但 事实 上 ， 纠 错 码 把 编码 和 数据 看 作 一 
个 更 长 的 字 (在 例子 中 是 7 位 )。 因 此 ， 编 码 和 数据 的 错误 等 同 对 待 。 

尽管 上 例 中 的 nn 位 数据 需 n--1 位 校 验 码 ， 但 随 着 数据 倍数 的 增加 ， 校 验 的 位 数 增长 
较 慢 。 例 如 ， 在 距离 为 3 的 校 验 码 中 ，64 位 数据 只 需 7 位 校 验 码 ，128 位 数据 只 需 8 位 校 
验 码 就 能 实现 。 这 种 校 验 码 叫 汉 明 码 ， 是 由 R. Hamming 首先 发 明 的 。 


B. 10 有限 状 态 机 


前 面 已 经 讲 过 ， 数 字 逻 辑 电 路 可 分 为 组 合 电路 和 时 序 电路 。 时 序 系统 的 状态 存放 在 存储 器 


中 ， 它 们 的 操作 不 仅 依赖 于 输入 信号 ， 同 时 也 与 存储 器 中 的 数据 、 系 统 的 初始 状态 有 关 。 因 
此 ， 时 序 电路 无 法 用 真 值 表 加 以 描述 。 相 反 ， 可 以 用 有 限 状态 机 (finite-state machine) 来 描述 
时 序 系统 。 有 限 状态 机 有 一 组 状态 量 和 两 个 函数 (输出 函数 和 下 一 状态 函数 (next- state func- 
tion) ) 。 状 态 集 包 括 在 存储 单元 中 可 能 出 现 的 所 有 状态 量 。 这 样 ， 对 于 位 存储 器 ， 就 可 能 有 
2 "个 状态 量 。 下 一 状态 函数 是 这 样 一 种 组 合 函 数 : 通过 给 定 输入 值 和 当前 状态 量 来 确定 后 续 状 


太 
yo 


AR 


输出 函数 根据 当前 状态 量 和 输入 量 产生 一 组 输出 。 图 B-10-1 是 有 限 状 态 机 的 图 示 。 


有 限 状 态 机 : 一 个 包含 一 套 输 入 、 输 出 函数 和 下 一 状态 函数 的 时 序 逻 辑 函 数 。 其 中 下 一 状 
态 函 数 根据 当前 状态 和 输入 产生 一 个 新 的 状态 ， 给 出 函数 根据 当前 状态 和 输入 (有 时 不 
需要 输入 ) 确定 输出 的 控制 信号 。 

下 一 状态 函数 : 是 一 个 组 合 函 数 ， 根 据 输入 和 当前 状态 确定 有 限 状态 机 的 下 一 状态 。 








图 B-10-1 一 个 状态 机 包含 存储 状态 的 内 部 存储 单元 和 两 个 组 合 函 数 : 下 一 状态 函数 
和 输出 函数 。 通 常 输出 函数 严格 视 当 前 状态 量 为 输入 ， 这 样 就 不 会 改变 时 
序 机 的 能 力 ， 但 会 对 内 部 值 造成 影响 


还 克 设 计 基 而 48I 





此 处 和 第 4 章 讨论 的 状态 机 都 是 同步 的 。 也 就 是 说 ， 状 态 量 随 着 时 钟 周 期 变化 ， 并 且 每 个 
时 钟 周 期 内 都 有 新 的 状态 量 产 生 。 根 据 前 面 的 约定 ， 状 态 量 的 更 新 发 生 在 时 钟 触 发 沿 到 来 时 
刻 。 本 节 和 整个 第 4 章 都 使 用 了 该 方法 ， 但 通常 不 显 式 的 支持 时 钟 。 在 第 4 章 中 ,我 们 用 到 了 
状态 机 来 控制 处 理 机 的 执行 ， 并 实现 了 数据 路 径 操作 。 

为 说 明 有 限 状 态 机 的 操作 和 设计 过 程 ， 我 们 引用 简单 经 典 的 “交通 灯 控 制 ” 实 例 加 以 说 
. 明 (第 4、5 章 详细 描述 了 利用 有 限 状 态 机 来 控制 处 理 机 的 执行 过 程 ) 。 若 将 有 限 状 态 机 用 作 控 
制 器 ， 输 出 函数 将 仅仅 依赖 于 当前 状态 ， 这 样 的 状态 机 称 作 摩尔 机 。 在 本 书 中 ， 我 们 都 采用 了 
这 种 有 限 状 态 机 。 如 果 输 出 函数 既 依赖 于 当前 输入 ， 也 依赖 于 当前 状态 ， 这 样 的 状态 机 称 为 米 
利 机 。 这 两 种 状态 机 在 功能 上 是 等 价 的 ， 二 者 可 以 互相 转化 。 摩 尔 机 的 优点 是 快速 ， 而 米利 机 
则 结构 小 巧 〈 因 为 后 者 的 状态 量 个 数 比 摩尔 机 少 ) 。 第 5 章 已 详细 讨论 了 它们 之 间 的 差别 ， 并 
展示 了 使 用 米利 状态 机 实现 的 有 限 状 态 机 的 Verilog 版 本 。 

下 面 的 例子 是 关于 交通 灯 控 制 逻辑 的 ， 背 景 为 东西 大 道 和 南北 大 街 相 交 的 十 字 路 口 。 为 简 
单 起 见 ， 这 里 只 考虑 红 灯 和 绿灯 ; 练习 题 中 有 另外 加 上 黄 灯 的 逻辑 设计 。 我 们 希望 灯 切 换 的 逻 
辑 周 期 <30 秒 。 因 此 采用 了 频率 为 0.033Hz 的 时 钟 信号 ， 这 样 就 能 保证 状态 间 的 控制 周期 <30 
秒 。 其 中 有 两 个 输出 信号 

。 NSlite: 当 信号 有 效 时 ， 南 北方 向 的 交通 灯 为 绿色 ; 当 信 和 号 无 效 时 ， 南 北方 向 的 交通 灯 

为 红色 。 

。 EWlite: 当 信号 有 效 时 ， 东 西方 向 的 交通 灯 为 绿色 ， 反 之 为 红色 。 

另外 还 有 两 个 输入 量 : 

。 NScar: 说 明 有 汽车 停 在 监视 器 处 ， 监 视 器 置 于 南北 方向 的 交通 灯 之 前 。 

。 EWcar: 说 明 有 汽车 停 在 监视 器 处 ， 监 视 器 置 于 东西 方向 的 交通 灯 之 前 。 

只 有 当 其 他 方向 有 汽车 在 等 待 时 ， 交 通 灯 才 会 在 红绿灯 之 间 切 换 ; 否则 ， 交 通 灯 的 状态 保 
持 为 绿色 ， 直 到 该 方向 上 所 有 汽车 都 顺利 通过 为 止 。 

为 完成 这 个 简单 的 控制 ,我 们 还 需要 两 个 状态 量 : 

。 NSgreen: 南北 方向 的 交通 灯 为 绿色 。 

。 EWgreen: 东西 方向 的 交通 灯 为 绿色 。 

下 面 ， 我 们 建立 一 个 下 一 状态 函数 表 : 


Next state 








NSgreen NSgreen 








NSgreen EWegreen 


NSgreen NSgreen 





NSgreen EWegreen 


pve 一 wm 





EWegreen NSgreen 





EWegreen NSgreen 


注意 ， 算 法 中 我 们 并 没有 提 及 当 两 个 方向 同时 有 汽车 通行 时 该 怎么 办 。 如 果 出 现 这 样 的 情 
况 ， 上 面 的 状态 表 需 要 修改 以 保证 不 会 导致 某 一 方向 出 现 交 通 堵塞 。 
有 限 状 态 机 可 通过 指定 输出 函数 加 以 实现 。 
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NSgreen | 1 0 
EWegreen 0 1 








在 考察 如 何 实现 这 个 有 限 状 态 机 之 前 ， 让 我 们 先 来 看 一 看 用 于 有 限 状 态 机 的 图 形 表示 。 在 
图 解 中 ， 节 点 表示 状态 量 ， 节 点 中 的 一 串 输 出 是 状态 值 ， 有 向 弧 用 于 指出 下 一 状态 函数 值 ， 带 
标记 有 向 弧 是 将 输入 条 件 作为 逻辑 函数 。 图 B-10-2 为 该 有 限 状 态 机 的 图 形 表示 。 


EWcar 


NSgreen EWegreen 


NScar 





图 B-10-2 2 状态 交通 信号 灯 的 控制 图 。 其 中 简化 了 状态 传递 的 逻辑 函数 。 例 如 ， 此 状态 
表 中 的 NSgreen 到 EWegreen 的 传输 信号 是 (NScar . EWear) + (NScar * EWcar)， 
与 EWcar 相等 


有 限 状态 机 可 这 样 实现 : 由 寄存 器 保持 当前 状态 ， 组 合 电路 计算 出 下 一 状态 函数 和 输出 范 
数 。 图 B-10-3 描述 了 一 个 有 限 状 态 机 的 框 
图 : 共有 16 个 状态 量 ， 每 个 状态 量 的 带宽 
为 4 位 。 在 实现 有 限 状 态 机 之 前 ， 我 们 先 将 
每 个 状态 标 上 号 ， 该 过 程 叫 状态 分 配 。 例 
如 ， 我们 将 NSgreen 标 为 状态 0，EWgreen 标 
为 状态 1。 状 态 寄 存 器 则 只 保存 工 位 内 容 。 
下 一 状态 函数 可 由 以 下 公式 得 以 计算 : 


NextState = (CurrentState . EWcar) 





+ (CurrentState * NScar) 
其 中 CurrentState 是 状态 寄存 髓 的 内 容 (0 或 
1) 。NextState 是 指 下 一 状态 量 ， 该 值 将 在 时 
钟 周期 结束 之 前 写 人 寄存 器 。 输 出 函数 也 很 
简单 : 








lite = 
et a 图 B-10-3 ”有限 状态 机 的 实现 。 有 限 状态 机 通过 状态 寄 


EWliles (Cuenidoe 存 器 来 实现 。 该 寄存 器 内 容 包 括 当前 状态 和 

组 合 电 路 则 采用 结构 化 的 逻辑 电路 得 以 用 于 计算 下 一 状态 和 输出 函数 的 组 合 逻 辑 

实现 ， 壁 如 采用 PLA。PLA 能 自动 根据 下 一 块 。 后 面 的 两 个 通常 采用 分 离 的 逻辑 模块 进 
状态 表 和 输出 函数 表 实 现 逻 辑 设计 。 其 实 ， 行 实现 ， 这 可 能 需要 更 少 的 门 电路 


也 有 现成 的 CAD 工具 ， 它 们 先 将 有 限 状 态 机 图 形 化 或 文本 化 ， 然 后 再 自动 实现 优化 电路 设计 。 
在 第 4、5 章 中 ， 有 限 自动 机 用 于 控制 处 理 机 的 执行 。 附 录 D 则 详细 讨论 了 用 PLA 和 ROM 来 
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实现 这 些 控制 。 

为 了 说 明 我 们 如 何 使 用 Verilog 写 出 控制 逻辑 ， 图 B-10-4 给 出 了 一 个 用 于 综合 的 Verilog 版 
本 。 注 意 ， 对 于 这 个 简单 的 控制 功能 ， 米 利 机 没有 用 处 ， 但 是 在 第 5 章 中 为 实现 控制 功能 使 用 
的 这 种 类 型 定义 就 是 米利 机 ， 它 比 摩尔 机 控制 器 拥有 的 状态 更 少 。 


module TrafficLite (ENWCar ,NSCar,ENLite,NSLite,clock); 


input EWCar, NSCar,clock; 
output EWLite,NSLite; 


reg state; 
initial state=0; //set initial state 


//following two assignments set the output, which is based 
// only on the state variable 

assign NSLite = ~ state; //NSLite on if state = 0; 

assign EWLite = state; //EWLite on if state = 1 


always @(posedge clock) // all state updates on a positive 
// clock edge 


case (state) 
0: state = EWCar; //change state only if EWCar 


1: state NSCar; //change state only if NSCar 


endcase 
endmodule 





图 B-10-4 交通 灯 控 制 器 的 Verilog 描述 


著 | 小 测验 
要 满足 米利 机 所 需 的 状态 数 比 摩尔 机 所 需 的 状态 数 少 这 个 条 件 ， 摩尔 机 最 少 的 状态 数 是 
多 少 ? 
a. 2， 因 为 1 状态 的 米利 机 有 可 能 做 相同 的 事情 。 
b. 3， 因 为 可 以 构造 一 个 简单 的 摩尔 机 ， 跳 转 到 两 个 不 同 状态 之 一 ， 并 且 在 此 之 后 总 是 返 
回 先前 状态 。 有 可 能 构造 出 两 状态 米利 机 实现 这 一 功能 。 
c. 需要 至 少 4 个 状态 ， 才 能 体现 出 米利 机 的 优越 性 。 


B. 11 ”时钟 控制 原理 


本 附录 中 ， 我们 全 部 采用 时 钟 边沿 作 为 触发 信号 。 这 是 因为 时 钟 边沿 触发 方法 比 电 平 触发 
方法 更 易于 描述 和 理解 。 本 节 将 较为 详细 地 阐述 时 钟 控制 原理 ， 同 时 也 介绍 有 关 电 平 触发 时 钟 
信号 的 内 容 。 本 节 末 简单 地 讨论 一 下 有 关 蜡 步 信号 和 同步 信号 的 基本 原理 ， 这 是 数字 设计 中 的 
一 个 重要 问题 。 

本 节 的 主要 目的 是 介绍 有 关 时 钟 控 制 原理 的 重要 概念 。 故 在 章节 开始 首先 假定 了 一 些 重要 
的 条 件 ; 若 有 兴趣 深入 了 解 时 钟 控制 ， 可 参阅 附录 末 的 参考 文献 。 

采用 时 钟 边沿 触发 方法 的 优点 有 两 个 : 易于 描述 ， 应 用 简单 。 首 先 ， 我们 假设 时 钟 信号 足 
够 长 ， 并 且 所 有 时 钟 都 同时 到 达 ， 那 么 我 们 就 能 保证 : 对 于 边沿 触发 的 寄存 器 位 于 组 合 逻 辑 电 
路 之 间 的 系统 ， 所 有 的 操作 都 能 正确 执行 ， 而 不 会 发 生 竞争 现象 。 如 若 状 态 值 依赖 于 不 同 逻 辑 
单元 的 相对 速度 ， 那 么 就 会 发 生 竞争 。 在 时 钟 边沿 触发 电路 设计 中 ， 时 钟 周期 必须 有 一 定 长 
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度 ， 这样 才能 满足 传输 时 间 〈 即 信号 从 某 个 触发 器 传输 到 另 一 个 触发 器 所 必须 满足 的 建立 时 
间 ) 。 图 B-11-1 描述 了 采用 上 升 沿 触发 的 系统 所 必须 满足 的 时 钟 条 件 。 时 钟 周期 必须 至 少 和 下 
式 一 样 大 : 


3 个 分 量 表示 最 差 情况 下 的 3 个 延 时 ， 分 别 定义 如 下 : 

。 im 是 信号 通过 触发 器 传播 的 时 间 ， 有 时 也 称 为 clock-to-Q。 

。 lunbiioml 是 对 于 任何 组 合 逻辑 的 最 长 延 时 〈 两 个 触发 器 包围 的 部 分 ) 。 

。 tm 即 在 上 升 沿 到 来 前 ， 触 发 器 输入 必须 有 效 的 时 间 。 

另 一 个 假设 条 件 是 触发 的 保持 时 间 要 求 已 满足 。 这 在 现代 逮 辑 设计 中 几乎 就 不 是 个 问题 。 


D 2 组 合 D 2 
口 
触发 器 逻辑 块 触发 器 
C C 


prop {combinational ITsctup 








图 B-11-1 在 时 钟 边沿 触发 的 逻辑 电路 中 ， 需 要 保证 时 钟 周期 足够 长 ， 以 便 保 证 在 下 一 个 时 钟 触发 沿 到 
来 之 前 信号 在 建立 时 间 内 已 经 有 效 。 信 和 号 从 触发 器 输入 端 传播 到 触发 器 输出 端的 时 间 为 few， 
然后 经 过 Crwnuioa 的 时 间 通过 组 合 逻辑 ， 并 在 下 一 个 时 钟 沿 到 来 之 前 至 少 ke 时 刻 有 效 


在 边沿 触发 的 设计 中 还 必须 考虑 的 一 个 复杂 问题 是 时 钟 偏 斜 〈clock skew) 。 时 钟 偏 斜 是 
指 两 个 状态 单元 看 到 同一 个 时 钟 沿 时 的 绝对 时 间 差 。 时 钟 偏 斜 产生 的 原因 是 时 钟 信号 经 常 
沿 两 条 不 同 的 路 径 传播 ， 导 致 到 达 两 个 状态 单元 在 时 间 上 有 差异 。 如 果 时 钟 偏 斜 足够 大 ， 
有 可 能 导致 一 个 状态 单元 发 生变 化 ， 从 而 使 得 另 一 个 触发 器 的 输入 端 在 该 触发 器 看 到 时 钟 
沿 之 前 变化 。 

图 B-11-2 谢 析 了 该 问题 的 产生 ， 这 里 忽略 了 建立 时 间 和 触发 器 的 传输 延 时 。 为 避免 这 种 
错误 ， 可 增 大 时 钟 周 期 以 克服 最 大 时 钟 偏 移 。 这 样 ， 时 钟 周期 至 少 应 大 于 : 

四 二 Fovmbinadonal 十 让 cum t ikew 
有 了 这 个 前 提 和 条件， 就算 两 个 时 钟 的 到 达 先 后 次 序 颠 倒 ， 即 第 二 个 时 钟 早 到 了 i 整个 电路 依 
旧 能 正常 工作 。 设 计 人 员 为 减少 偏 移 度 ， 通 常 需 要 仔细 设计 时 钟 信号 经 过 的 路 由 ， 争 取 将 偏 移 
减少 到 最 小 。 另 外 ， 聪 明 的 设计 师 还 通过 稍稍 变 大 时 钟 周期 的 方法 来 减少 时 钟 偏 斜 ; 这 些 变化 
在 逻辑 单元 和 电源 上 是 允许 的 。 正 因为 考虑 到 时 钟 偏 斜 会 影响 保持 时 间 ， 所 以 使 偏 移 度 尽 量 小 
至 关 重 要 。 


忆 ”时 钟 偏锋 : 两 个 状态 单元 看 到 时 钟 沿 的 绝对 时 间 差 别 。 







时 钟 在 tt+A 
之 后 达到 


图 B-11-2 ”时钟 偏 斜 可 能 引发 竞争 现象 ， 引 起 错误 操作 。 由 于 两 个 触发 器 检测 时 钟 信号 的 时 刻 存 在 差异 ， 
则 可 能 导致 存储 在 每 片 的 信号 都 会 向 前 传输 ， 在 触发 器 2 的 时 钟 有 效 信号 到 达 之 前 改变 了 触 
发 器 2 的 输入 值 
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时 钟 边缘 触发 有 两 个 缺点 : 需要 额外 的 逻辑 电路 ， 有 时 会 增加 时 延 。 比 较 D 触发 器 和 电 平 
触发 锁 存 器 ， 我 们 会 发 现 前 者 需要 更 多 的 逻辑 电路 。 另 一 种 方法 是 采用 电 平 触发 时 钟 控制 
(level-sensitive clocking) 。 因 为 电 平 触 发 机 制 下 状态 变化 不 是 瞬间 完成 的 ， 为 使 各 项 操作 能 正 
确 执 行 ， 该 方法 会 更 加 复杂 ， 需 要 考虑 更 多 因素 。 


。” 电 平 触发 时 钟 控制 : 一 种 在 时 钟 高 电 平 或 低 电 平 期 间 进行 状态 改变 的 时 序 控制 方法 ， 其 状 
态 变化 没有 边沿 触发 方式 快 。 


B. 11.1 电 平 触发 时 控 原 理 


在 电 平 触发 时 控 机 制 下 ， 状 态 量 的 改变 发 生 在 高 电 平 或 低 电 平 期 间 ， 因 为 它们 不 采用 时 钟 
边沿 触发 ， 所 以 这 些 变化 并 不 能 瞬间 完成 ， 于 是 就 会 有 竞争 现象 产生 。 为 了 保证 在 时 钟 足够 慢 
的 情况 下 ， 电 平 触 发 电路 照样 能 正常 工作 ， 设 计 中 用 到 了 双 相 时 钟 控 制 。 双 相 时 钟 控制 中 用 到 
了 两 个 互 不 重合 的 时 钟 信 和 号。 参照 图 B-11-3， 任 何 时 刻 至 多 有 一 个 时 钟 信号 处 于 高 电 平 状态 。 
这 样 ， 我 们 采用 双 相 时 钟 〈 记 作 由 、g,) 构建 的 系统 就 克服 了 竞争 现象 ， 效 果 与 时 钟 边沿 触 
发 电路 一 样 。 . 


非 重 又 时 域 
图 B-11-3 双 相 时 钟 机 制 下 展示 了 每 个 时 钟 周期 和 非 重 奉 的 阶段 


一 种 简单 的 设计 方案 是 采用 在 $, 打开 的 锁 存 器 取代 在 $, 打开 的 锁 存 器 。 因 为 两 个 时 钟 不 是 
同时 处 于 有 效 状态 ， 于 是 竞争 现象 就 不 会 发 生 。 如 果 组 合 电路 的 输入 控制 信号 为 由 ， 那 么 它 的 输 
出 态 会 在 $, 时 钟 周 期 内 被 锁 存 起 来 。 这 样 当 输入 锁 存 器 关闭 时 ， 其 输出 值 只 能 在 $, 的 有 效 信号 
期 间 开 放 ， 于 是 能 保证 输出 信号 有 效 。 图 B-11-4 描述 了 双 相 时 钟 控制 系统 和 交替 锁 存 器 机 理 是 如 
何 实现 的 。 如 同 在 时 钟 边沿 触发 电路 设计 中 那样 ， 我 们 必须 考虑 并 协调 好 时 钟 偏 斜 ， 尤 其 是 时 
钟 的 相位 关系 。 如 果 能 减少 两 个 时 钟 信号 在 相位 上 的 重 秋分 量 ， 就 会 减少 出 错 的 概率 。 如 果 每 
个 时 钟 信号 周期 足够 长 ， 双 相 不 重 倒 部 分 足够 大 ， 那 就 可 以 有 效 地 保证 电路 运行 的 正确 性 。 


D 2 D 2 D 
锁 存 器 组 合 逻 辑 块 锁 存 器 组 合 逻 辑 块 锁 存 器 
$, C $, & ®, C x 


图 B-11-4” 双 相 时 钟 机 制 下 的 系统 操作 和 时 钟 信号 。 图 示 表 明 系 统 在 两 个 时 钟 状态 下 如 何 运 作 ， 在 同 本 
身 C 输入 反 相 的 时 钟 状态 下 ， 锁 存 器 保持 稳定 。 所 以 在 时 域 由 中 ， 第 一 个 组 合 块 有 一 个 稳 
定 的 输入 ， 其 输出 则 可 以 被 $, 锁 存 。 同 理 ， 第 二 个 组 合 块 也 在 其 反 相 时 域 $, 中 保持 稳定 的 
输入 。 因 此 经 过 组 合 块 的 时 延 决定 了 各 时 钟 必须 有 效 的 最 短 时 间 。 非 重 琶 时 域 则 由 任意 逻辑 
块 的 最 大 时 钟 偏 移 和 最 小 时 延 共同 决定 


B. 11.2 异步 输入 和 同步 器 
如 果 时 钟 偏 斜 问题 得 到 了 解决 ， 只 要 采用 单 时 钟 信号 或 双 相 时 钟 机 制 ， 就 能 完全 消除 竞争 
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现象 。 但 是 ， 要 想 在 整个 系统 中 仅 使 用 一 个 时 钟 信号 并 且 欲 使 时 钟 偏 斜 很 小 ， 这 在 实际 电路 中 
不 太 现实 。 实 际 系统 中 ，CPU 有 自己 的 时 钟 信号 ， 而 WO 设备 也 有 自己 的 时 钟 信 号 。 一 个 异步 
设备 可 以 通过 一 系列 的 握手 与 CPU 进行 通信 。 为 了 将 异步 输入 信和 号 转化 为 同步 信号 并 用 于 改 
变 系统 的 状态 量 ， 就 需要 采用 同步 器 。 在 同步 器 中 ， 输 入 为 异步 信号 和 独立 的 时 钟 信号 ， 其 输 
出 是 与 此 输入 时 钟 同步 的 信号 。 

要 设计 同步 器 ， 首 先 得 采用 D 触发 器 ， 如 图 B-11-5 所 示 ， 其 输入 信号 D 是 异步 信号 。 我 
们 还 采用 了 握手 通信 协议 。 因 为 异步 


这 号 将 一 直 保持 着 有 效 状态 直到 被 确 输入 一 一 |] “| 网 步 针 册 

认 ， 所 以 , 无论 是 在 当前 周期 还 是 后 Clock c 

续 时 钟 周期 检测 到 蜡 步 信号 并 不 很 重 图 .11.5 由 了 触发 器 组 成 的 同步 器 。 用 于 采样 异步 信号 ， 
要 ， 于 是 除了 一 个 小 问题 之 外 ， 就 不 并 将 产生 和 时 钟 保持 同步 的 输出 信号 。 这 个 同步 
难 理解 这 种 简单 设计 足以 实现 正确 采 器 不 能 完全 正确 工作 

样 了 。 


但 实际 电路 设计 中 还 存在 一 个 亚 稳 态 ( metastability) 的 问题 。 假 设 在 时 钟 触发 沿 到 来 之 
前 ， 异 步 信号 一 直 在 高 低 电 平 间 振 荡 ; 那么 ， 显 然 难 以 判断 到 底 是 信号 的 高 电 平 还 是 低 电 平 被 
锁 存 起 来 了 。 虽 然 这 个 问题 可 以 克服 ， 但 真正 头痛 的 问题 在 于 : 如 果 采 样 信号 的 建立 时 间 和 保 
持 时 间 不 满足 基本 要 求 ， 触 发 器 可 能 会 进入 一 种 亚 稳 态 。 这 时 ， 输 出 信号 既 不 是 高 电 平 也 不 是 
低 电 平 ， 而 是 介 于 二 者 之 间 的 电 平 。 并 且 ， 还 将 无 法 保证 触发 器 在 有 限 的 时 间 内 稳定 下 来 。 同 
时 ， 与 该 触发 器 相关 的 逻辑 模块 测 到 的 输出 信号 也 不 一 致 : 有 时 是 0， 有 时 是 1， 这 种 现象 叫 
作 同 步 失败 (synchronizer failure ) 。 


仿 “” 亚 稳 态 : 如 果 采 样 时 信号 不 满足 建立 时 间 和 保持 时 间 的 要 求 ， 采 样 所 得 的 数据 可 能 是 介 于 
高 电 平 和 低 电 平 之 间 的 一 个 错误 值 。 

2 同步 失败 : 触发 器 进入 亚 稳 态 状态 ， 并 且 有 些 逻 辑 模 块 读 到 触发 器 输出 为 0,， 而 另外 一 些 
模块 读 到 触发 器 的 输出 为 1 。 


在 一 个 同步 系统 中 ， 通 过 使 建立 
时 间 和 保持 时 间 满足 要 求 ， 可 以 确保 “异步 答 入 
系统 避免 同步 失败 ， 但 是 当 输入 是 异 clodk 
步 信号 时 会 出 现 例外 。 唯 一 可 能 的 解 
决 方案 是 当 输出 信号 稳定 ， 或 当 触发 图 B-11-6 只 要 亚 稳 态 的 时 间 小 于 时 钟 周期 ， 该 同步 信号 器 





器 退出 亚 稳 态 后 再 接收 该 同步 器 的 输 就 能 工作 正常 。 尽 管 第 一 个 触发 器 的 输出 端 可 能 
入 信号 ,但 这 样 会 增加 等 待 时 间 。 那 会 是 亚 稳 态 ,但 任何 其 他 的 逻辑 单元 在 第 二 个 时 
究竟 该 才 间 呢 ? 触发 器 处 于 亚 钟 之 前 看 不 到 亚 稳 态 。 在 第 二 个 D 触发 器 在 第 
ee 二 个 时 钟 采 样 信号 时 ， 第 一 个 触发 器 的 输出 将 不 
rhe mt ten 再 处 于 亚 稳 态 


短 的 时 间 内 ， 此 概率 就 衰减 得 很 小 ; 
但 永远 不 会 为 0! 因此 要 想 使 同步 失败 的 概率 很 小 ， 就 需 经 过 几 年 甚至 几 千年 时 间 。 

通常 情况 下 ， 经 过 几 个 建立 时 间 后 ， 失 败 的 概率 就 衰减 得 很 小 了 。 当 时 钟 周期 比 亚 稳 态 周 
期 要 长 时 ， 就 需要 两 个 D 触发 器 以 保证 安全 性 〈 见 图 B-11-6) 。 有 兴趣 的 读者 可 进一步 阅读 参 
考 文献 。 


图 小 测验 
假设 要 设计 的 电路 具有 非常 大 的 时 钟 偏 斜 ,其 时 钟 偏 斜 程度 超过 了 寄存 器 的 传播 时 间 
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(propagation time) 。 那 么 是 否 有 可 能 通过 设计 来 减 慢 时 钟 以 使 得 逻辑 操作 能 正确 运行 ? 
a. 可 以 ， 即 使 时 钟 偏 斜 非常 大 ， 但 是 只 要 时 钟 慢 到 一 定 的 程度 ， 那 么 信号 总 是 能 正常 地 
传输 ， 整 个 电路 设计 就 能 正确 运行 。 
b. 不 可 以 ， 因 为 有 可 能 存在 这 样 一 种 情况 : 两 个 寄存 器 对 于 时 钟 边 沿 的 感知 时 间 相 差 过 
大 ， 导 致 在 同一 个 时 钟 边沿 时 ， 其 中 一 个 寄存 器 会 发 现 另 一 个 寄存 器 已 经 被 触发 ， 并 
且 输 出 已 经 传输 出 去 了 。 


人 传播 时 间 : 将 触发 器 的 输入 传播 到 触发 器 的 输出 需要 的 时 间 。 


B. 12 ”现场 可 编程 设备 


对 于 定制 或 半 定 制 芯片 ， 设 计 者 可 以 利用 底层 结构 提供 的 灵活 性 方便 地 实现 组 合 或 时 序 逻 
辑 。 对 于 那些 不 想 使 用 定制 或 半 定 制 IC 而 又 想 利用 高 级 集成 电路 实现 复杂 逻辑 功能 的 设计 者 
来 说 ， 现 场 可 编程 器 件 〈field programmable device，FPD) 是 使 用 最 普遍 的 器 件 了 。FPD 是 包括 
组 合 逻辑 ( 可 能 还 有 内 存 设备 ) 的 集成 电路 ，FPD 可 由 使 用 者 配置 。 


他“ 现场 可 编程 器 件 (FPD): 一 种 包含 组 合 逻 辑 ， 可 能 也 包含 存储 设备 的 集成 电路 ,最终 用 
户 可 以 对 其 进行 配置 。 


FPD 主要 分 为 两 个 阵营 : 可 编程 逻辑 器 件 (programmable logic device，PLD), 它 是 纯粹 的 
组 合 逻 辑 ; 现场 可 编程 门 陈列 (field programmable gate array，FPGA) ， 它 提供 组 合 逻 辑 和 触发 
器 。PLD 由 两 种 形式 组 成 : 简单 PLD (simple PLD，SPLD ) ， 就 是 通常 的 PLA 或 者 可 编程 阵列 
逻辑 (programmable array logic，PAL) ; 还 有 就 是 复杂 PLD ， 它 包括 多 于 一 个 的 逻辑 模块 以 及 模 
块 间 的 可 配置 互 连 线路 。 当 谈 到 PLD 中 的 PLA 时 ， 通 常 是 指 带 有 用 户 可 编程 与 阵列 和 或 阵列 
的 PLA。PAL 类 似 于 PLA， 除 了 它 的 或 阵列 是 固定 的 以 外 。 


”可 编程 逻辑 器 件 (PLD) : 包含 最 终 用 户 可 配置 功能 的 组 合 逻 辑 的 集成 电路 。 

2 现场 可 编程 门 陈列 (FPCA): 一 种 可 配置 的 包含 组 合 逻 辑 模块 和 触发 器 的 集成 电路 。 

2 简单 PLD (SPLD) : 一 种 可 编程 逻辑 器 件 ， 通 常 包含 一 块 PAL 或 PLA。 

2 可 编程 阵列 逻辑 (PAL) : 由 一 个 可 编程 的 与 阵列 后 跟 一 个 可 编程 的 或 阵列 组 成 的 可 编程 
逻辑 电路 。 

在 讨论 FPGA 以 前 ， 先 来 看 看 FPD 是 如 何 配 置 的 。 配 置 的 主要 问题 就 是 在 何 处 建立 或 打破 
连接 。 门 电路 和 寄存 器 是 静态 的 ， 但 是 连接 是 可 配置 的 。 注 意 ， 通 过 配置 连接 ， 用 户 可 以 决定 
实现 何 种 逻辑 功能 。 考 虑 一 个 可 配置 的 PLA: 通过 决定 与 阵列 和 或 阵列 在 何 处 连接 ， 用 户 决定 
PLA 中 运算 的 逻辑 。FPD 中 的 连接 可 以 是 永久 的 ， 也 可 以 是 可 配置 的 。 永 久 连 接 涉及 两 个 连 线 
之 间 建 立 或 破坏 连接 。 现 在 的 FPLD 都 使 用 反 熔 给 (antifuse) 技术 ， 人 允许 在 编程 时 建立 连接 然 
后 再 永久 固定 下 来 。 配 置 CMOS FPLD 的 另外 一 种 方法 是 使 用 SRAM。 在 上 电 时 ， 配 置信 息 下 
载 到 SRAM 中 ， 这 些 内 容 控制 开关 设 定 进 而 决定 哪些 金属 线 连接 起 来 。FPD 使 用 SRAM 控制 的 
好 处 在 于 可 以 通过 修改 SRAM 的 内 容 进 行 重新 配置 。 基 于 SRAM 控制 的 两 个 缺点 是 : 配置 信息 
是 易 失 的 ， 必 须 在 上 电 时 重新 加 载 ; 为 了 切换 使 用 主动 晶体 管 会 给 线路 增加 一 点 电阻 。 


2 反 熔 丝 : 集成 电路 中 的 一 种 结构 ， 当 对 其 进行 编程 时 ， 将 导致 线 间 的 永久 性 连接 。 


包含 逻辑 和 存储 设备 的 FPGA 通常 是 二 维 阵列 结构 ， 划 分 行 、 列 的 通道 用 来 进行 阵列 单元 
间 的 互 连 。 每 个 单元 是 门 和 触发 器 的 组 合 ， 可 以 编程 执行 特定 功能 。 因 为 可 编程 的 RAM 通常 
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很 小 ， 它 们 也 被 称 为 查找 表 (lookup table，LUT) 。 更 新 的 FPGA 包括 更 复杂 的 构建 模块 ， 例 如 
加 法 器 和 用 来 构建 寄存 器 文件 的 存储 模块 。 一 些 大 型 的 FPCGA 其 至 包含 32 位 的 RISC 核心 。 


人 ”查找 表 (LUT) : 现场 可 编程 器 件 中 的 单元 的 名 称 ， 包 含 少量 的 逻辑 和 RAM。 





除了 可 以 对 每 个 单元 进行 编程 执行 特定 的 功能 ， 单 元 间 的 互 连 也 是 可 编程 的 ， 这 就 使 得 现 
在 包含 上 百 模块 和 上 千 门 电路 的 FPGA 可 以 实现 复杂 的 逻辑 功能 。 互 连 是 可 定制 芯片 的 最 大 挑 
战 ， 对 于 FPGA 也 是 如 此 ， 因 为 单元 不 能 表示 结构 化 设计 分 解 的 自然 功能 单元 。 许 多 FPCA 有 
90% 的 部 分 用 来 实现 互 连 ， 只 有 10% 是 逻辑 和 存储 模块 。 

正如 你 不 可 能 不 使 用 CAD 工具 来 设计 定制 或 半 定 制 芯片 ， 你 也 需要 CAD 工具 来 设计 FPD。 已 
经 开发 出 针对 特定 FPGA 的 逻辑 合成 工具 ， 帮 助 从 结构 或 行为 Verilog 描述 中 使 用 FPGA 生成 系统 。 


B. 13 结论 


本 附录 介绍 了 逻辑 设计 的 一 些 基 本 概念 和 原理 。 在 了 解 了 这 些 内 容 之 后 ， 请 参阅 第 4、5 
章 ， 那 些 内 容 是 本 附录 的 应 用 和 进一步 深入 。 


拓展 阅读 


关于 逻辑 电路 设计 ， 有 很 多 好 书 ， 以 下 列 出 了 其 中 一 些 。 

一 本 详细 介绍 用 Verilog 进行 逻辑 设计 的 书 : 

Ciletti, M. D. [2002]. Advanced Digital Design with the Verilog HDL, Englewood 
Cliffs, NJ: Prentice Hall. 


一 本 关于 逻辑 设计 的 书 : 

Katz, R. H. [2004]. Modern Logic Design, 2nd ed., Reading, MA: Addison-Wesley. 
一 本 关于 逻辑 设计 的 书 : 

Wakerly J. F. [2000]. Digital Design: Principles and Practices 3rd ed., Englewood 
Cliffs, NJ: Prentice Hall. 


B. 14 练习 题 
B.1 [10] <B.2> 除 了 这 一 部 分 我 们 讨论 过 的 基本 规律 之 外 ， 还 有 两 个 重要 的 定理 ， 叫 作 德 * 摩根 
定理 : 


A+B=A:-B 和 A:.B=A+B 
使 用 下 面 的 真 值 表 对 上 面 的 德 . 摩根 定理 进行 证 明 : 
i 
oT 























B.2 [15] <B.2> 用 德 .摩根 定理 和 B.2 节 中 的 结合 公理 证 明 例 题 中 关于 下 的 两 个 表达 式 是 等 价 的 。 

B.3 [10] <B.2> 证 明 对 于 nn 输入 的 逻辑 函数 ， 对 应 的 真 值 表 有 2n 项 。 

B.4 [10] <B.2> 骨 或 函数 具有 多 种 用 途 (可 用 于 加 法 器 或 用 来 计算 校 验 码 )。 对 于 二 输入 的 异 或 函数 ， 
当 且 仅 当 一 个 输入 值 为 “ 真 ”时 输出 才 为 “ 真 "。 写 出 二 输入 异 或 函数 的 真 值 表 ， 并 用 与 门 、 或 门 
和 反 相 器 实现 该 函数 。 


[15] < B. 2 > 通过 使 用 二 输入 的 或 非 门 实现 与 、 或 、 非 三 种 逻辑 功能 ， 证 明 利用 或 非 门 可 以 实现 
任何 逻辑 功能 。 
[15] <B. 2 > 通过 使 用 二 输入 的 与 非 门 实现 与 、 或 、 非 三 种 逻辑 功能 ,证明 利 用 与 非 门 可 以 实现 
任何 逻辑 功能 。 
[10] <B.2，B.3 > 写 出 四 输入 奇 校 验 函 数 的 真 值 表 (关于 错误 校 验 的 内 容 参 见 B. 9. 3 节 ) 。 
[10] <B.2，B.3 > 用 输入 端 和 输出 端 带 有 反 向 小 圆圈 的 与 门 和 或 门 实现 四 输入 的 奇 校 验 函 数 。 
[10] <B.2，B.3 > 用 PLA 实现 四 输入 的 奇 校 验 函数 。 
[15] <B.2，B. 3 > 通过 使 用 多 路 选择 器 实现 与 非 门 (或 者 或 非 门 ) ,证 明 二 输入 多 路 选择 器 可 以 
实现 任何 逻辑 功能 。 
[5] <4.2，B.2，B.3 > 假设 XX 由 三 位 x2、xl、x0 组 成 。 分 别 写 出 下 列 4 个 逻辑 表达 式 〈 当 且 仅 
当 满 足下 面 的 条 件 时 逻辑 表达 式 为 “ 真 ”) : 
。 了 中 只 有 一 个 0。 
。 工 中 有 偶数 个 0。 
。 当 扎 被 当做 无 符号 二 进 倒数 时 , 天 小 于 4。 
。 当 铸 被 当做 有 符号 二 进 制 数 时 ,对 是 负数 。 
[5] <4.2，B.2，B.3 > 用 PLA 实现 练习 题 B. 11 的 4 个 逻辑 函数 。 
[5] <4.2，B.2，B.3 > 假设 X 由 三 位 和 好、xl、 组 成 , 了 由 三 位 好 、yL、70 组 成 。 写 出 下 列 3 
个 逻辑 表达 式 ( 当 且 仅 当 满足 下 面 的 条 件 时 逻辑 表达 式 为 “ 真 ” ) : 
e 当 X、Y 被 当做 无 符号 二 进 制 数 时 ,XX<Y。 
e 当 X、 了 被 当 作 有 符号 (二进制 补 码 ) 数 时 ，X <Y。 
e X=Y, 
使 用 可 以 扩展 到 多 位 的 层次 表达 方法 ， 写 出 如 何 扩展 为 6 位 比较 。 
[5] <B.2，B.3 > 用 逻辑 电路 实现 开关 网 络 : 输入 为 4 和; 输出 为 C 和 D; 控制 信号 为 S。 当 
S=1 时 ， 网 络 为 直通 模式 ， 即 C=4, D=B; 当 3$=0 时 ， 网 络 为 交叉 模式 ， 即 C=B, D=4。 
[15] <B.2，B.3 > 由 B.2 节 中 EE 的 “和 之 积 ” 形 式 推 出 其 “ 积 之 和 ”形式 。 你 需要 使 用 德 . 摩 
根 定理 。 
[30] <B.2，B. 3 > 设计 一 个 算法 ， 该 算法 能 够 对 任何 包含 与 、 或 、 非 逻辑 的 函数 构建 其 “ 积 之 
和 ”形式 的 表达 式 。 算 法 应 当 具 有 递归 性 ， 并 且 在 整个 过 程 中 不 能 产生 真 值 表 。 
[5] <B.2，B.3 > 写 出 多 路 选择 器 的 真 值 表 (输入 为 4、B 和 5， 输出 为 C)， 通 过 使 用 无 关 项 来 
简化 真 值 表 。 
[5] <B.3 > 下 面 的 Verilog 模块 实现 了 何 种 功能 : 
module FUNC1 (I10, Il1, S, out); 

input 10, I11; 

input S; 

output out; 

out. = S$? Tl;: 10; 
endmodule 


module FUNC2 (out,ctl,clk,reset); 
output [7:0] out; 
input ctl, clk, reset; 
reg [7:0] out; 
always @(posedge clk) 
if (reset) begin 
out 《= 8'b0 ; 
end 
else if (ct1) begin 
out 《= out + 1; 
end 
else begin 
out 《= out - 1; 
end 
endmodule 
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B. 19 
了 B. 20 
B. 21 


B. 22 


B. 23 
B. 24 


B. 26 


B. 30 


[5] <B.4>B.8.1 节 给 出 了 D 触发 器 的 Verilog 代码 ， 请 给 出 D 锁 存 器 的 Verilog 代码 。 

[10] <B.3，B.4> 写 出 2 -4 译 码 器 〈 与 /或 编码 器 ) 的 Verilog 模块 实现 。 

[10] <B.3，B.4 > 根据 下 面 给 出 的 累加 器 逻辑 图 ， 写 出 它 的 Verilog 模块 实现 。 假 定 使 用 正 边沿 
触发 寄存 器 和 异步 Rst。 


16 
Load -一 一 人 二 一 ~Onut 
Clk 
Rst 
寄存 器 
Loa 


[20] <B.3，B.4，B. 5 >3.3 节 介 绍 了 乘法 器 的 基本 操作 和 可 能 的 实现 。 这 个 实现 的 基本 单元 是 
一 个 移 位 加 法 单元 。 给 出 这 个 单元 的 Verilog 实现 ， 并 说 明 如 何 使 用 这 个 单元 建立 32 位 乘法 器 。 
[20] <B.3，B.4，B.5 > 根据 上 一 题 ， 实 现 无 符号 除法 器 。 
[15] <B.5 >ALU 支持 只 使 用 加 法 器 的 符号 位 设置 小 于 (slt)。 用 这 种 方法 比较 -7 和 6， 为 
简单 起 见 ， 使 用 4 位 二 进 制 表示 : 1001, 和 0110,。 
1001, -0110, = 1001, + 1010, =0011， 
这 个 结果 表示 -7 >6， 这 显然 是 错误 的 。 因 此 在 判断 时 必须 考虑 到 溢出 。 修 改 图 B-5-10 中 的 1 位 
ALU 来 正确 处 理 slt。 为 了 节省 时 间 可 以 直接 复印 图 ,在 图 上 改 。 
[20] <B.6> 在 加 法 中 检查 溢出 的 一 个 简单 方法 是 看 最 高 有 效 位 的 CarryIn 是 否 和 最 高 有 效 位 的 
CarryOut 相同 。 证 明 这 个 方法 和 图 3-2 是 一 样 的 。 
[5] <B.6 > 使 用 新 定义 重 写 B. 6.3 节 中 16 位 加 法 器 的 超前 进位 逻辑 公式 。 第 一 ， 使 用 加 法 器 独 
立 位 CarryIn 信号 的 名 字 ， 即 使 用 4 ，c8 ，c12，…， 而 不 是 使 用 C1，C2，C3 ，…; 另外 ，P,,; 表 
示 i 位 到 j 位 的 传播 信和 号，G, ,表示 i 位 到 j 位 的 生成 信号 ， 例如， 公式 

C2=Gl+ (Pl :G0) + (Pl.: PO.¢0) 

















可 改写 成 

B=Gat (Pa:Gso) + (Pia * Pso ©0) 
这 个 更 通用 的 定义 在 建立 位 数 更 宽 的 加 法 器 时 有 用 。 
[15] <B.6 > 使 用 练习 题 B. 26 的 新 定义 写 出 64 位 加 法 器 的 超前 进位 逻辑 公式 ， 使 用 16 位 加 法 器 
作为 基础 模块 。 并 给 出 类 似 图 B-6-3 的 图 。 
[10] <B.6> 下 面 计算 加 法 器 的 相对 性 能 。 假 定 针 对 某 个 公式 的 硬件 运行 时 间 为 一 个 时 间 单 位 了 ， 
这 个 公式 只 包含 与 运算 或 者 或 运算 ,例如 B. 6. 2 节 的 pi 和 gi 公式 。 由 几 个 与 项 进行 或 运算 构成 的 
公式 运行 时 间 需 要 27, 例如 B. 6. 2 节 中 的 公式 cl 、c2、c3 和 c4。 这 个 时 间 包 括 计算 与 运算 的 时 
间 了 和 计算 或 运算 的 额外 时 间 7。 分 别 计算 4 位 行 波 进位 加 法 器 和 超前 进位 加 法 器 的 运算 次 数 和 
性 能 的 比 。 如 果 公 式 中 的 项 由 其 他 公式 定义 ， 增 加 中 间 公 式 带 来 的 相应 时 延 ， 反 复 和 迭代 直到 公式 
中 使 用 的 都 是 加 法 器 的 实际 输入 为 止 。 并 且 给 每 个 加 法 器 标 出 计算 时 延 并 标明 最 坏 情况 时 延 。 
[15] < B.6 > 类似 练习 题 B. 28，, 不 过 这 次 只 计算 16 位 的 相对 速度 ， 加 法 器 的 结构 分 别 是 : 
(1) 行 波 进位 加 法 器 ;(2) 4 位 一 组 ， 组 内 超前 进位 ， 组 间 行 波 进位 ; (3) 采用 B. 6. 2 节 所 示 的 
超前 进位 加 法 器 。 
[15] < 了 B. 6 > 与 练习 题 B. 28 和 B. 29 类 似 ， 本 题 计 算 64 位 加 法 器 的 相对 速度 ， 加 法 器 的 结构 分 别 
是 :(1) 行 波 进位 加 法 器 ; (2) 4 位 一 组 ， 组 内 超前 进位 ， 组 间 行 波 进位 ; (3) 16 位 一 组 ,组 内 
超前 进位 ， 组 间 行 波 进位 ; (4) 采用 练习 题 B，27 中 的 超前 进位 加 法 器 。 
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[10] <B.6 > 如 果 我 们 不 把 加 法 器 看 成 一 个 把 两 个 数 相 加 然后 与 进位 连接 到 一 起 的 装置 ， 而 是 将 
其 看 成 可 以 把 三 个 数 (ai，bi，ci) 相 加 ， 并 且 产 生 两 个 输出 (s，ci + 1) 的 硬件 装置 。 当 进行 两 
个 数 的 加 法 时 ， 我 们 并 不 能 据 此 做 些 什么 。 但 是 当 我 们 进行 两 个 以 上 操作 数 的 加 法 时 ， 就 可 以 通 
过 上 述 想法 降低 进位 开销 。 该 想法 是 构造 两 个 独立 的 “和 ”， 分 别 叫 作 S$' (和 数位 ) 和 C' (进位 
位 ) 。 在 这 一 过 程 的 未 尾 ， 我 们 需要 用 一 个 普通 的 加 法 器 把 $ 和 C' 加 到 一 起 。 这 个 把 进位 传播 推 
迟到 加 法 运算 最 后 阶段 的 技巧 称 为 进位 保留 加 法 。 图 B-14-1 右 下 角 的 模块 图 显示 了 该 加 法 器 的 结 
构 ， 该 结构 中 两 个 进位 保留 加 法 器 通过 一 个 普通 加 法 器 连接 到 一 起 。 

对 于 具有 4 个 16 位 二 进 制 数 的 加 法 运算 , 分 别 计算 采用 完全 超前 进位 加 法 器 和 带 有 超前 进位 
加 法 器 (用 来 形成 最 终 的 累加 和 ) 的 进位 保留 加 法 器 的 时 延 。( 时 间 单 位 7 与 练习 题 B. 28 相同 ) 
a3 b3 a2 b2 al bl a0 b0 











EL 
+ 后 
(| 


s5 s4 S3 S2 sl 








图 B-14-1 4 个 4 位 数 相 加 的 传统 行 波 进位 和 进位 保留 加 法 器 。 加 法 器 细节 见 左边 ， 单 独 
信号 小 写 表示 ， 相 应 高 层 模块 见 右 图 ,组合 信号 大 写 表示 。 注 意 ，4 个 n 位 数 
的 和 需要 n+2 位 
[20] < B.6 > 在 计算 机 当中 最 有 可 能 同时 把 多 个 数 相 加 到 一 起 的 情形 铠 怕 就 是 当 我 们 试图 在 一 个 
时 钟 周期 中 通过 采用 多 个 加 法 器 将 多 个 数 相 加 的 办 法 来 加 快 乘法 运算 的 速度 。 相 比 于 第 3 章 提 到 
的 乘法 算法 ， 具 有 多 个 加 法 器 的 进位 保留 方案 可 以 实现 10 倍 以 上 的 乘法 运算 速度 。 本 习题 对 采用 
组 合 逻辑 乘法 器 计算 两 个 16 位 正 数 乘法 的 开销 和 速度 进行 评估 。 假 设 存在 16 个 部 分 积 M15， 
M14，…，M0， 这 些 部 分 积分 别 表示 被 乘 数 与 乘 数 的 每 一 位 〈m15，m14，…，m0) 进行 “与 ” 
运算 的 结果 。 我 们 的 想法 是 用 进位 保留 加 法 器 将 n 个 操作 数 减 少 到 2n/3 个 并 行 组 ， 每 组 3 个 ， 反 
复 迭代 直至 得 到 两 个 大 数 ， 最 后 用 普通 加 法 器 把 二 者 加 到 一 起 。 
首先 ， 根 据 图 B-14-1 右 半 部 分 所 示 ， 夯 出 16 位 进位 保留 加 法 器 的 组 织 结构 ， 用 来 实现 16 个 部 分 
积 的 相 加 。 然 后 计算 把 这 16 项 加 到 一 起 的 时 延 。 将 计算 出 的 结果 与 第 3 章 中 的 迭代 乘法 方案 进行 
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B. 33 


B. 34 


B. 3S 


B. 36 


了 B. 37 


B. 38 


B. 39 


B. 40 


B. 42 
B. 43 


B. 44 


比较 , 但 需要 注意 的 是 ， 这 里 假定 16 次 迭代 过 程 中 使 用 的 是 具有 完全 超前 进位 的 16 位 加 法 器 ， 
该 加 法 器 的 速度 在 练习 题 B. 29 中 已 经 计算 过 。 

[10] <B.6 > 有 时 用 户 想 要 将 一 组 数 一 同 加 起 来 。 例 如 ， 使 用 1 位 完全 加 法 器 将 4 个 4 位 数 (A， 
B, 下 ，F) 加 起 来 。 现 在 忽略 超前 进位 。 将 1 位 加 法 器 按 图 B-14-1 的 组 织 形式 连接 起 来 。 在 传统 
组 织 形式 之 下 是 完全 加 法 器 的 新 组 织 形式 。 使 用 这 两 种 组 织 结构 实现 4 个 数 的 加 法 ， 并 确保 能 够 
得 到 相同 结果 。 

[5] <B.6 > 首先 给 出 如 图 B-14-1 所 示 的 16 位 进位 保留 加 法 器 的 模块 组 织 结构 。 假 定 通过 一 个 1 
位 加 法 器 的 时 间 是 27， 计 算 上 下 两 个 组 织 结构 进行 4 个 4 位 数 加 法 所 需 的 时 间 。 

[5] < B.8 > 很 多 时 候 你 可 能 希望 得 到 这 样 的 时 序 图 ， 该 时 序 图 包含 了 对 发 生 在 数据 输入 端 忆 和 时 
钟 输入 端 C (类 似 于 B. 8 节 图 B-8-3 和 图 B-8-6) 的 变化 的 描述 ， 通 常 D 锁 存 器 和 D 触发 器 的 输 
出 端 波形 (0Q) 是 不 同 的 。 用 一 两 句 话 描述 使 二 者 输出 端 波 形 相同 的 条 件 ( 即 输 入 信号 需要 满足 
的 条 件 ) 。 

[5] <B.8 >B.8 节 图 B-8-8 描述 了 MIPS 数据 通路 的 寄存 器 文件 实现 。 假 设 需要 建立 一 个 新 的 寄 
存 器 文件 ， 但 是 只 有 两 个 寄存 器 和 一 个 读 端口 ， 并 且 每 个 寄存 器 只 有 两 位 数据 。 重 绘图 B-8-8， 
使 得 每 根 连接 线 仅 与 一 位 数据 相连 (不 像 图 B-8-8 中 那样 ， 有 些 连接 线 为 5 位 ， 有 些 则 为 32 位 ) 。 
采用 DD 和 触发 器 重 绘图 中 的 寄存 器 。 无 需 画 出 D 触发 器 或 多 路 选择 器 的 具体 实现 。 

[10] <B. 10 > 有 个 朋友 想 让 你 帮忙 设计 一 个 仿 安全 装置 的 “电子 眼 " 。 该 设备 由 排 成 一 行 的 三 个 
灯 组 成 ， 这 三 个 灯 分 别 受 输出 Left、Middle 和 Right 控制 ， 即 当 这 三 个 信号 当中 的 某 一 个 有 效 时 ， 
对 应 的 灯 被 点 亮 。 每 次 仅 有 一 个 灯 被 点 亮 , 并且 灯光 先 从 左 到 右 “移动 "， 然 后 再 从 右 到 左 ， 这 
样 可 以 吓 跑 那些 误 以 为 该 设备 正在 监控 其 行踪 的 小 偷 。 画 出 用 于 控制 该 “电子 眼 ” 的 有 限 状态 机 
图 示 。 需 要 注意 的 是 ,“ 有 眼睛 ”的 移动 速率 受 时 钟 速度 (不 应 当 过 高 ) 的 控制 ， 并 且 根本 没有 输 
和 信号。 

[10] < B. 10 > 为 上 题 中 的 有 限 状 态 机 分 配 状 态 编码 ， 并 写 出 对 应 于 每 个 输出 信号 的 包含 下 一 状态 
位 的 逻辑 表达 式 。 

[15] <B.2，B.8，B. 10 > 用 3 个 D 触发 器 和 若干 逻辑 门 构造 一 个 3 位 计数 器 。 计 数 器 的 输入 包括 
复位 信号 reset， 计 数值 增加 信号 ine。 计 数 结果 作为 计数 器 输出 。 当 计数 值 为 7 并 且 继 续 增 加 时 ， 
计数 值 应 当 重新 归 零 。 

[20] < B. 10 > 格雷 码 是 具有 这 样 性 质 的 二 进 制 序列 ， 即 该 序列 当中 相 邻 的 两 个 编码 最 多 有 一 位 不 
同 。 例 如 ， 下 面 是 一 个 3 位 格雷 码 序 列 : 000，001, 011,， 010，110，111，101， 和 100。 用 三 个 
D 触发 器 和 一 个 PLA 实现 一 个 3 位 格雷 码 计数 器 ， 要 求 该 计数 器 具有 两 个 输入 信和 号: 复位 信号 re- 
set 和 增 量 信号 ine， 其 中 reset 信和 号 将 计数 器 设 为 000，ine 信号 将 使 计数 器 进入 序列 中 的 下 一 状 
态 。 需 要 注意 的 是 ， 该 编码 序列 是 循环 的 ， 所 以 100 的 下 一 个 值 为 000。 

[25] < B. 10 > 我 们 希望 在 B. 10 节 的 交通 灯 例 子 中 添加 一 个 黄 灯 。 通 过 将 时 钟 频率 改 为 
0. 25Hz (时 钟 周 期 4 秒 ， 即 黄 灯 的 持续 时 间 ) 。 为 防止 绿灯 和 红 灯 循 环 过 快 ， 我 们 加 入 了 一 
个 30 秘 的 计时 器 。 该 计时 器 只 有 一 个 输入 信和 号 TimerReset， 该 信号 用 于 对 计时 器 进行 重启 ; 
计时 器 输出 信号 TimerSignal 表示 30 秒 时 间 已 经 过 去 。 而 且 ， 为 了 把 黄 灯 包含 进去 ， 我 们 必 
须 重 新 定义 交通 信号 。 我 们 通过 给 每 个 灯 定 义 两 个 输出 信号 (green 和 yellow) 来 实现 。 如 果 
输出 NSgreen 有 效 ， 绿 灯 被 点 亮 ; 如 果 输 出 NSyellow 有 效 ， 黄 灯 被 点 亮 。 如 果 两 个 信号 都 无 
效 ， 则 红 灯 被 点 亮 。green 和 yellow 信和 号 不 能 同时 有 效 ， 和 否则 美国 司机 见 到 之 后 肯定 会 感到 困 
惑 ， 即 使 欧洲 司机 明白 其 中 的 含义 ! 画 出 上 述 改 进 后 的 控制 器 对 应 的 有 限 状 态 机 图 示 。 状 态 
名 称 不 要 和 输出 信号 同名 。 

[15] < B. 10 > 写 出 练习 题 B. 41 中 交通 灯 控 制 器 的 下 一 状态 表 和 输出 函数 表 。 

[15] <B.2，B. 10 > 为 练习 题 B. 41 的 交通 灯 分 配 状态 编码 ， 并 根据 练习 题 B. 42 的 表格 写 出 每 个 
输出 信号 的 逻辑 表达 式 ， 包 括 下 一 状态 的 输出 。 

[15] <B.3，B..10 > 用 PLA 实现 练习 题 B. 43 的 逻辑 表达 式 。 


还 克 设 计 基 而 


著 ] 小 测验 答案 


B.2 
B.3 
B.4 
B.4 

了 B.5 
B.6 
B.8 

B.10 
B.11 


否 。 如 果 4=1, C=1,，B=0， 那么 第 一 个 为 真 ， 第 二 个 为 假 。 
C 

全 部 相同 。 

AS0, B=1。 
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索引 中 的 页 码 为 英文 原 书页 码 ， 与 书 中 页 边 标注 的 页 码 一 致 。 注 意 : 在 网 上 的 信息 以 章节 后 跟 页 码 
的 方式 列 出 (OL. 3. 11-7) ， 附 录 中 的 信息 以 字母 后 跟 页 码 的 方式 列 出 。 


1-bit ALU (一 位 ALU) ， 见 Arithmetic logic unit 
(ALU), B-26-29 
adder (加 法 器 ) ，B-27 
CarryOut，B-28 
for most significant bit (最 高 有 效 位 ) ，B-33 
illustrated ( 配 有 插图 ) ，B-29 
logic unit forAND/OR (与 /或 逻辑 运算 单元 )， 
B-27 
performing AND，OR ，and addition (执行 与 或 和 
加 法 ) ，B-31，B-33 
32-bit ALU (32 位 ALU ) ， 见 Arithmetic logic unit 
(ALU ) ，B-29-38 
defining in Verilog (在 Verilog 中 定义 ) ，B-35-38 
from31 copies of 1-bit ALU (复制 31 个 一 位 ALU ) ， 
B-34 
illustrated (举例 说 明 ) ，B-36 
ripple carry adder ( 行 波 进位 加 法 器 ) ，B-29 
tailoring to MIPS (适用 于 MIPS) ，B-31-35 
with 321-bit ALUs (用 32 个 一 位 ALU) ，B-30 
32-bit immediate operands (32 位 立即 数 ) ，112-113 
7090/7094 hardware (32 位 立即 数 ) ，0L3. 11-7 
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Absolute references (绝对 引用 ) ，126 
Abstractions (抽象 ) ， 
hardware/ software interface ( 软 /硬件 分 界面 ) ，22 
principle (原理 ) ，22 
to simplify design (为 简化 设计 ) ，11 
Accumulator architectures ( 累加 器 结构 ) ，0L2. 21-2 
Acronyms ( 首 字母 缩 略 词 )，9 
Active matrix (有 源 和 矩阵 ) ，18 
add (Add) (加 ) ，64 
add. d (FP Add Double， 双 精度 浮 点 数 加 法 ) ，A-73 
add.s (FP Add Single， 单 精度 浮 点 数 加 法 ) ，A-74 
Add unsigned instruction (无 符号 整数 加 法 指 
令 ) ，180 


addi (Add Immediate) (加 立即 数 ) ，64 
Addition (加 法 ) ， 见 Arithmetic，178-182. 
binary (二 进 制 ) ，178-179 
floating- point ( 浮 点 型 ) ，203-206，211 ，A-73-74 
instructions (指令 ) ，A-51 
operands (操作 数 ) ，179 
significands ( 有效 数 ) ，203 
speed (速率 ) ，182 
addiu (Add Imm. Unsigned) 
数 ) ，119 
Address interleaving (地 址 交错 ) ，381 
Address select logic (地 址 选择 逻辑 ) ，D-24，D-25 
Address space (地 址 空间 ) ，428 ，431 
extending (扩展 ) ，479 
flat (平面 ) ，479 
ID (ASID) (地 址 空间 标识 符 )，446 
inadequate (不 足 ) ，0L5. 17-6 
shared (共享 的 )，519-520 
single physical (单一 物理 地 址 空间 )，517 
unmapped (未 映射 的 ) ，450 
virtual (虚拟 的 ) ，446 
Address translation ( 地址 转换 ) 
for ARM cortex- A8 (ARM 公司 cortex- A8 芯片 ) ，471 
defined (定义 ) ，429 
fast (快速 ) ，438-439 
for Intel core i7，471 (英特尔 酷 宕 这 ) ， 
TLB for ( 快 表 ) ，438-439 
Address- control lines (地 址 控制 线 ) ，D-26 
Addreses (地 址 ) 
32-bit immediates (32 位 立即 寻 址 ) ，113-116 
base ( 基 址 ) ，69 
byte ( 字 节 型 )，69 
defined (定义 ) ，68 
memory ( 主 存 ) ，77 
virtual (虚拟 的 ) ，428-431 ，450 
Addressing ( 寻 址 ) 


(加 无 符号 整 型 立即 





32-bit immediates (32 位 立即 寻 址 ) ，113-116 
base ( 基 址 ) 116 
displacement ( 移 位 ) ，116 
immediate (立即 寻 址 ) ，116 
in jumps and branches ( 跳 转 和 分 支 ) ，113-116 
MIPS modes (MIPS 方式 ) 116-118 
PC-relative (相对 于 程序 计数 器 ) ，114，116 
pseudodirect ( 伪 直 接 ) ，116 
register (寄存 器 ) ，116 
x86 modes (x86 方式 ) ，152 
Addressing modes ( 寻 址 方式 ) ，A-45-47 
desktop architectures (台式 机 体系 结构 ) ，E-6 
addu (Add Unsigned ， 加 无 符号 整数 ) ，64 
Advanced Vector Extensions ( AVX， 高 级 适量 扩展 
指令 集 )，225,227 
AGP (加 速 图 形 接口 ) ，C-9 
Algol-60，0L2. 21-7 (算法 语言 -60 ) ， 
Aliasing (别名 使 用 ) ，444 
Alignment restriction (调整 限制 ) ，69-70 
All- pairs N- body algorithm ( All- pairs N- body 算 
法 ) ，C-65 
Alpha architecture (Alpha 体系 结构 ) 
bit count instructions (位 计算 指令 ) ，E-29 
floating-point instructions ( 浮 点 数 指令 ) ，E-28 
instructions (指令 ) ，E-27-29 
no divide, E-28 
PAL code (可 编程 逻辑 阵列 代码 ) ，E-28 
unaligned load-store (未 对 齐 存储 )，E-28 
VAX floating-point formats ( 浮 点 格式 虚拟 地 址 扩 
展 器 )，E-29 
ALU control (ALU 控制 )， 见 Arithmatic logic unit 
(ALU) ，259-261 
bits (比特 ) ，260 
logic (逻辑 ) ，D-6 
mapping to gates (映射 到 逻辑 门 ) ，D-4-7 
truth tables ( 真 值 表 ) ，D-5 
ALU control block ( ALU 控制 块 ) ，263 
defined (定义 ) ，D-4 
generating ALU control bits (生成 ALU 控制 位 ) ， 
D-6 
ALUOp (ALU 操作 码 ) ，260，D-6 
bits (比特 ) ，260，261 
control signal (控制 信号 ) ，263 
Amazon Web Services (AWS) (亚马逊 网 络 服务 ) ，425 
AMD Opteron X4 (了 Barcelona) ( 超 微 半 导体 公司 卑 
龙 处 理 器 X4 (巴塞 罗 那 ) ) ，543 ，544 


495 


AM (又 称 “x86-64” 或 “x64” 是 一 种 64 位 的 计算 
机 处 理 器 架构 )，D64, 151, 224，012.21-6 
Amdahl' s law (Amdahl 定律 ) ，401 ，503 
corollary (推论 ) ，49 
defined (定义 ) ，49 
fallacy 〈 廖 误 ) ，556 
and (AND) (与 ) ，64 
AND gates (与 门 ) ，B-12，D-7 
AND operation (与 操作 ) ，88 
AND operation (与 操作 ) ，A-52，B-6 
andi (And Immediate) (立即 数 与 ) ，64 
Annual failure rate (AFR) (年 故障 率 ) ，418 
与 MTTF of disks (磁盘 平均 无 故障 时 间 )， 
419-420 
Antidependence ( 反 依赖 ) ，338 
Antifuse ( 反 熔 丝 ) ，B-78 
Apple computer (苹果 计算 机 公司 ) ，0OL1. 12-7 
Apple iPad 2 A1395 ，20 (苹果 平板 计算 机 ) ， 
logic board of (逻辑 板 ) ，20 
processor integrated circuit of (处 理 器 集成 电 
路 ) ，21 
Application binary interface ( ABI， 应 用 二 进 制 接 
口 ) ，22 
Application programming interface (API， 应 用 程序 
编程 接口 ) 
defined (定义 ) ，C-4 
graphics (图 像 ) ，C-14 
Architectural registers (体系 结构 级 寄存 器 ) ，347 
Arithmetic (算术 运算 ) ，176-236 
addition (加 法 ) ，178-182 
addition and subtraction (加 减法 ) ，178-182 
division (除法 )，189-195 
fallacies and pitfalls ( 廖 误 及 陷阱 )，229-232 
floating- point ( 浮 点 型 ) ，196-222 
historical perspective (历史 展望 ) ，236 
multiplication (乘法 ) ，183-188 
parallelism and (并 行 与 操作 ) ，222 -223 
Streaming SIMD Extensions and advanced vector ex- 
tensions in x86 ( 单 指令 流 多 数据 流 扩 展 和 高 
级 矢量 扩展 指令 集 ) ，224-225 
subtraction (减法 ) ，178-182 
subword parallelism ( 子 字 并 行 )，222-223 
subword parallelism and matrix multiply ( 子 字 并 
行 和 和 抢 阵 乘法 ) ，225-228 
Arithmetic instructions (算术 运算 指令 )， 见 In- 


structions 
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desktop RISC (台式 精简 指令 集 计 算 机 ) ，E-11 

embedded RISC 〈 租 人 式 精 简 指令 集 计 算 机 ) ， 
E-14 

logical (逻辑 ) ，251 

MIPS (每 秒 百 万 条 指令 ) ，A-51-57 

operands (操作 数 ) ，66-73 

Arithmetic intensity (算术 运算 强度 ) ，541 

Arithmetic logic unit (ALU， 算 术 逻 辑 运算 单元 ) ， 

见 ALU control; Control units 

1-bit (1 比特 ) ，B-26-29 

32-bit (32 比特 ) ，B-29-38 

before forwarding (在 转发 之 前 ) ，309 

branch datapath (分 支 数 据 通 路 ) ，254 

hardware (硬件 ) ，180 

memory-reference instruction use (存储 器 相关 指 
令 的 使 用 ) ，245 

for register values (寄存 器 值 ) ，252 

R-format operations (寄存 器 型 操作 ) ，253 

signed-immediate input (有 符号 立即 数 输入 ) ，312 

(ARM Cortex- A8 这 片 ) ，244 ， 

345-346 

address translation for (地 址 转换 ) ，471 

caches in (高 速 缓存 ) ，472 

data cache miss rates for (数据 cache 缺失 率 ) ，474 

memory hierarchies of (存储 器 层次 体系 ) ，471-475 

performance of (性 能 ) ，473-475 

specification (规格 ) ，345 

TLB hardware for ( 快 表 硬 件 ) ，471 

ARM instructions (ARM 指令 ) ，145-147 

12-bit immediate field (12 位 立即 数字 段 ) ，148 

addressing modes ( 寻 址 方式 ) ，145 

block loads and stores ( 块 加 载 和 存储 ) ，149 

brief history ( 简 史 ) ，0L2. 21-5 

calculations (运算 ) ，145-146 

compare and conditional branch (比较 和 条 件 转 
移 ) ，147-148 

condition field (条 件 字段 ) ，324 

data transfer (数据 传送 ) ，146 

features (特性 ) ，148-149 

formats (格式 ) ，148 

logical (逻辑 ) ，149 

MIPS similarities (类 MIPS) ，146 

register-register (寄存 器 - 寄存 器 型 ) ，146 

unique (唯一 的 ) ，E-36-37 
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ARMv8 (ARMv8), 158-159 


ARPANET ( 阿 帕 网 络 )，OL1l. 12-10 
Arrays (数组 ) ，415 
logic elements ( 迎 辑 原件 ) ，B-18-19 
multiple dimension (多 维 ) ，218 
pointers versus (指针 ) ，141-145 
procedures for setting to zero ( 置 零 程序) ，142 
ASCII 
binary numbers versus (二 进 制 数 ) ，107 
character representation (字符 表示 ) ，106 
defined (定义 ) ，106 
symbols (标志 ) ，109 
Assembler directives (汇编 指令 ) ，A-5 
Assemblers (汇编 器 ) ，124-126，A-10-17 
conditional code assembly (条 件 语句 汇编 代码 
A-17 
defined (定义 ) ，14，A-4 
function ( 函数) ，125 ，A-10 
macros ( 宏 命 令 ) ，A-4，A-15-17 
microcode ( 微 程 序 ) ，D-30 
number acceptance (数据 接收 ) ，125 
object file ( 目标 文件 ) ，125 
pseudoinstructions (人 擅 指 令 ) ，A-17 
relocation information ( 重 定 位 信息 )，A-1 
A-14 
speed (速率 ) ，A-13 
symbol table (符号 表 ) ，A-12 . 
Assembly language (汇编 语言 ) ，15 
defined (定义 ) ，14，123 
drawbacks ( 缺陷) ，A-9-10 
floating-point ( 浮 点 型 ) ，212 
high-level languages versus (高 级 语言 ) ，A-12 
illustrated ( 配 有 插图 ) ，15 
MIPS (每 秒 百 万 条 指令 ) ，64，84 ，A-45-80 
production of (生产 ) ，A-8-9 
programs (程序 集 ) ，123 


}; 


3 


translating into machine language (翻译 为 机 器 语 


言 ) ，84 

when to use ( 何 时 使 用 ) ，A-7-9 
Asserted signals (声明 信号 ) ，250，B-4 
Associativity ( 相 联 度 ) 

in caches (在 高 速 缓存 中 ) ，405 

degree increasing (程度 增加 ) ，404 ，455 

increasing (增加 ) ，409 
set tag sizeversus (设置 标识 位 大 小 ) ，409 


Atomic compare and swap (原子 操作 比较 与 调换 ) ，123 


Atomic exchange (原子 交换 ) ， 121 
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Atomic fetch-and- increment (原子 预 取 与 增 量 ) ，123 
Atomic memory operation ( 原子 存储 器 操作 ) ，C-21 
Attribute interpolation (修改 属性 ) ，C-43-44 
Automobiles computer application in (汽车 计算 机 应 
用 ), 4 
Average memory access time ( AMAT, 平均 访 存 时 
间 ) ，402 
calculating (计算 ) ，403 


B 


Backpatching ( 反 向 修补 )，A-13 
Bandwidth (带宽 ) ，30-31 
bisection (二 分 法 ) ，532 
external to DRAM (在 动态 随机 存储 器 之 外 
的 ) ，398 
memory ( 主 存 ) ，380-381 ，398 
network ( 网络) ，535 
Barrier synchronization (障碍 同步 ) ，C-18 
defined (定义 ) ，C-20 
for thread communication 〈 用 于 线程 通信 ) ，C-34 
Base addressing (基地 址 ) ，69，116 
Base registers ( 基 址 寄存 器 ) ，69 
Basic block (基本 块 ) ，93 
Benchmarks (基准 测试 程序 )，538-540 
defined (定义 ) 46 
Linpack (线性 系统 软件 包 ) ，538，0OL3. 11-4 
multicores ( 多核 )，522-529 
multiprocessor ( 多 处 理 器 ) ，538-540 
NAS parallel (NAS 并 行 )，540 
parallel ( 并行) ，539 
PARSEC suite (PARSEC 程序 集 ) ，540 
SPECCPU (SPEC CPU), 46-48 
SPEC power (SPEC 功 耗 ) ，48-49 
SPECrate (SPEC 分 值 ) ，538-539 
Stream ( 流 ) ，548 
beq (Branch On Equal ， 相 等 则 转移 ) ，64 
bge (Branch Greater Than or Equal， 大 于 等 于 则 转 
移 ) ，125 
bgt (Branch Greater Than， 大 于 则 转移 ) ，125 
Biased notation ( 移 码 表示 法 ) ，79，20 
Big-endian byte order (大 端 法 排列 字 节 次 序 ) ，70， 
A-43 
Binary numbers (二 进 制 数 ) ，81-82 
ASCII versus ( ASCII 码 ) ，107 
conversion to _ decimal numbers (转换 为 十 进 制 
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数 ) ，76 
defined (定义 ) ，73 
Bisection bandwidth (对 分 带宽 ) ，532 
Bit maps (位 图 ) ， 
defined (定义 ) ，18，73 
goal (目标 ) ，18 
storing (存储 ) ，18 
Bit- Interleaved Parity (RAID 3， 比 特 交 错 奇 偶 校 
验 ) ，0L5. 11-5 
Bits (二 进 制 数字 ) ， 
ALUOp (ALU 操作 码 ) ，260，261 
defined (定义 ) ，14 
dirty 〈 脏 数据 ) ，437 
guard (保护 ) ，220 
patterns (模式 ) ，220-221 
reference (引用 ) ，435 
rounding (伟人 ) ，220 
sign (符号 ) ，75 
state (状态 ) ，D-8 
sticky (粘贴 ) ，220 
valid (有 效 ) ，383 
ble ( Branch Less Than or Equal, 小 于 等 于 则 转 
移 ) ，125 
Blocking assignment (阻塞 赋值 ) ，B-24 
Blocking factor ( 块 因 子 ) ，414 
Block- Interleaved Parity ( RAID 4， 块 交叉 奇偶 方 
式 )，OLS. 11-5-5. 11-6 
Blocks ( 块 ) 
combinational (组 合 的 ) ，B-4 
defined (定义 ) ，376 
finding (查找 ) ，456 
flexible placement (灵活 放置 ) ，402-404 
least recently used (LRU ， 最 近 最 少 使 用 ) ，409 
loads/stores ( 取 / 存 ) ，149 
locating in cache (位 于 高 速 缓存 内 ) ，407-408 
miss rate and (失效 率 ) ，391 
multiword mapping addresses to (多 字 地 址 映射 ) ， 
390 
placement locations (存储 位 置 ) ，455-456 
placement strategies (存储 策略 ) ，404 
replacement selection (替换 选择 ) ，409 
replacement strategies (替换 策略 ) ，457 
spatial locality exploitation (空间 局 部 性 开发 ) ，391 
state (状态 ) ，B-4 
valid data (有 效 数 据 ) ，386 
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blt ( Branch Less Than， 小 于 则 转移 ) ，125 
bne (Branch On Not Equal ， 不 相等 则 转移 ) ，64 
Bonding ( 绑 定 ) ，28 
Boolean algebra (布尔 代数 ) ，B-6 
Bounds check shortcut (边界 检查 的 简便 方法 ) ，95 
Branch datapath (分 支 数据 通路 ) ， 
ALU (算术 逻辑 单元 ) ，254 
operations (操作 码 ) ，254 
Branch delay slots (分 支 延 迟 醒 ) ， 
defined (定义 ) ，322 
scheduling (调度 ) ，323 
Branch equal ( 相等 则 转移 ) ，318 
Branch instructions (转移 指令 ) ，A-59-63 
jump instruction versus ( 跳 转 指令 )，270 
list of (列表 ) ，A-60-63 
pipeline impact (流水 线 的 影响 ) ，317 
Branch not taken (转移 无 效 ) ， 
assumption (假定 ) ，318 
defined (定义 ) ，254 
Branch prediction ( 分支 预 测 ) ， 
as control hazard solution (控制 冒险 解决 方案 ) ，284 
buffers (缓冲 区 )，321，322 
defined (定义 ) ，283 
dynamic (动态 的 ) ，284，321-323 
static (静态 的 ) ，335 
Branch predictors (分 支 预 测 器 )， 
accuracy (准确 性 ) ，322 
correlation ( 相关) ，324 
information from (信息 来 源 ) ，324 
tournament (竞赛 )，324 
Branch taken (转移 成 功 ) ， 
cost reduction (成 本 降低 ) ，318 
defined (定义 )，254 
Branch target (转移 目标 )， 
addresses (地 址 ) ，254 
buffers (缓冲 区 ) ，324 
Brahches (转移 ) ， 见 Conditional branches 
addressing in (地 址 输入 ) ，113-116 
compiler creation ( 编译 器 创建 ) ，91 
condition (条 件 ) ，255 
decision moving up (决策 上 移 ) ，318 
delayed (延迟 ) ，96，255，284，318-319，322 ，324 
ending (结束 ) ，93 
execution in JD stage (在 指令 译 码 阶段 执 
行 ), 319 
pipelined (流水 线 ) ，318 


target address (目标 地 址 )，318 
unconditional (无 条 件 )，91 
Branch-on-equal instruction (相等 则 转移 指令 ) ，268 
Bubble Sort ( 冒 泡 排序 )，140 
Bubbles (气泡 )，314 
Bus-based coherent multiprocessors (基于 总 线 的 一 
致 性 多 处 理 器 ) ，0L6. 15-7 
Buses (总 线 ) ，B-19 
Bytes ( 字 节 ) ， 
addressing ( 寻 址 ) ，70 
order (命令 ) ，70，A-43 


C 


C. mmp，0L6. 15-4 
C language (C 语言 ) 
assignment compiling into MIPS (任务 编译 为 
MIPS 指令 ) ，65-66 
compiling (编译 ) ，145，0L2. 15-2- 2. 15-3 
compiling assignment with registers (使 用 寄存 器 
编译 赋值 语句 ) ，67-68 
compiling while loops in (将 while 循环 编译 为 ) ，92 
sort algorithms (排序 算法 ) ，141 
translation hierarchy (翻译 层次 ) ，124 
translation to MIPS assembly language (翻译 为 
MIPS 汇编 语言 ) ，65 
variables (变量 ) ，102 
C ++ language (C ++ 语 言 ) ，0L2. 15-27，0L2. 21-8 
Cache blocking and matrixmultiply (cache 阻塞 和 甜 
阵 相 乘 ) ，475-476 
Cache coherence (cache 一 致 性 ) ，466-470 
coherence (一 致 性 ) ，466 
consistency ( 相 容 性 ) ，466 
enforcement schemes (强制 执行 ) ，467-468 
implement techniques (实现 技术 ) ，0L5. 12-11- 
$5, 12=12 
migration (迁移 ) ，467 
problem (问题 ) ，466 ，467，470 
protocol example (协议 示例 )，0L5. 12- 12- 5. 
12-16 
protocols (协议 ) ，468 
replication (复制 ) ，468 
snooping protocol (监听 协议 ) ，468-469 
snoopy (监听 ) ，0L5. 12-17 
statediagram ( 状态 图 ) ，0L5. 12-16 
Cache coherency protocol ( cache 一致 性 协议 )， 


0L5. 12-12-5. 12-16 
finite-state transition diagram (有 限 状 态 转 换 图 )， 
OLS. 12-15 
functioning (功能 ) ，0L5. 12-14 
mechanism (机 制 ) ，0L5. 12-14 
state diagram (状态 图 ) ，0L5. 12-16 
states (状态 ) ，0L5. 12-13 
write-back cache ( 写 回 式 cache) ，0L5. 12-15 
Cache controllers (〈 cache 控制 器 ) ，470 
”coherent cache implementation techniques (一 致 性 
cache 实现 技术 ) ，0L5. 12-11-5. 12-12 
implementing (实现 ) ，0L5. 12-2 
snoopy cache coherence (监听 cache 一 致 性 )， 
0L5. 12-17 
System Verilog (System Verilog 语言 ) ，0L5. 12-2 
Cache hits (cache 命中 ) ，443 
Cache misses (cache 缺失 ) 
block replacement on ( 块 替 换 ) ，457 
capacity (容量 ) ，459 
compulsory (强制 的 ) ，459 
conflict (冲突 ) ，459 
defined (定义 ) ，392 
direct- mapped cache ( 直接 映射 cache) ，404 
fully associative cache (全 相 联 cache) ，406 
handling (处 理 ) ，392-393 
memory- stall clock cycles (存储 器 停顿 时 钟 周 
期 ) ，399 
reducing with flexible block placement (通过 灵活 
的 块 替换 降低 ) ，402-404 
set- associative cache (组 相 联 cache) ，405 
steps (步骤 ) ，393 | 
in write-through cache (在 写 直达 式 cache 中 ) ，393 
Cache performance (cache 性 能 ) ，398-417 
calculating (计算 )，400 
hit time and (命中 时 间 ) ，401-402 
impact on processor performance (对 处 理 器 性 能 
的 影响 ) ，400 
Cache-aware instructions (cache 感知 指令 ) ，482 
Caches， 见 Blocks，383-398 
accessing，386-389 
in ARM cortex-A8，( 在 ARM cortex-A8 上 ) ，472 
associativity in (结合 性 ) ，405 -406 
bits in (位 数 ) ，390 
bits needed for (需要 的 位 数 ) ，390 
contents jllustration (内 容 说 明 ) ，387 
defined (定义 ) ，21，383-384 
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direct- mapped (直接 映射 ) ，384，385，390，402 
empty ( 空 ) ，386-387 
FSM for controlling (控制 有 限 状 态 机 ) ，461-462 
fully associative (全 相 联 映射 ) ，403 
CPU (图 形 处 理 器 ) ，C-38 
inconsistent (不 一 致 的 ) ，393 
index (索引 ) ，388 
in Intel Core 这 ，( 英 特 尔 酷 害 7 处 理 器 ) ，472 
JIntrinsity FastMATH example ( 内置 FastMATH 处 
理 器 ) ，395-398 
locating blocks in ( 块 定位 ) ，407-408 
locations (定位 ) ，385 
multilevel (多 级 ) ，398 ，410 
nonblocking ( 非 阻 塞 ) ，472 
physically addressed (物理 地 址 ) ，443 
physically indexed (物理 索引 ) ，443 
physically tagged (物理 标记 ) ，443 
primary (主要 的 ), 410, 417 
secondary (次 要 的 ) 410, 417 
set- associative (组 相 联 映射 ) ，403 
simulating (模拟 ) ，478 
size (尺寸 ) ，389 
split (分 裂 ) ，397 
summary (摘要 ) ，397-398 
tag field (标志 字段 ) ，388 
tags (标志 ) ，0L5. 12-3，OLS. 12-11 
virtual memory and TLB integration (虚拟 存储 器 
的 快 表 集 成 ) ，440-441 
virtually addressed (虚拟 地 址 ) ，443 
virtually indexed (虚拟 索引 ) ，443 
virtually tagged (虚拟 标志 ) ，443 
write-back ( 写 回 ) ，394，395 ，458 
write-through ( 写 直 达 ) ，393 ，395 ，457 
writes ( 写 操 作 ) ，393-395 
Callee (被 调用 者 ) ，98，99 
Callee- saved register (保存 被 调用 者 的 寄存 器 )， 
A-23 
Caller (调用 者 ) ，98 
Caller- saved register (保存 调用 者 的 寄存 器 )， 
A-23 
Capabilities (能 力 ) ，0L5. 17-8 
Capacity misses ( 容量 缺失 ) ，459 
Carry lookahead (先行 进位 ) ，B-38-47 
4-bit ALUs using (4 位 ALU 的 使 用 ) ，B-45 
adder (加 法 器 ) ，B-39 
fast with first level of abstraction (用 第 一 级 抽象 
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快速 进位 ) ，B-39-40 
fast with “infinite”hardware (使 用 “无 限 ” 硬 
件 的 快速 进位 ) ，B-38-39 
fast with second level of abstraction (用 第 二 级 抽 
象 快速 进位 ) ，B-40-46 
pluming analogy (管道 类 比 ) ，B-42 ，B-43 
ripple carry speed versus ( 行 波 进位 速率 ) ，B-46 
summary (摘要 ) ，B-46-47 
Carry save adders (进位 存储 加 法 器 ) ，188 
Cause register ( 原因 存储 器 ) ， 
defined (定义 ) ，327 
fields (字段 ) ，A-34，A-35 
OLC 6600 ( 连 线 计算 机 )，OLl. 12-7，0O14. 16-3 
Cell phones (移动 电话 ) ，7 
Central processor unit (CPU) (中 央 处 理 器 )， 见 Pro- 
cessors 
classic performance equation (经 典 的 性 能 方程 )， 
36-40 
coprocessor0 ( 协 处 理 器 0) ，A-33-34 
defined (定义 ) ，19 
execution time (执行 时 间 ) ，32 ，33-34 
performance (性 能 ) ，33-35 
system time (系统 时 间 ) ，32 
time (时 间 ) ，399 
time measurements (时 间 测 定 ) ，33-34 
user time (用 户 时 间 ) ，32 
Cg pixel shader program (计算 机 绘图 像素 着 色 程 
序 所 GG 庆 = 瑟 
Characters (字符 )， 
ASCII representation ( ASCII 人 码 表 示 法 )，106 
in Java (在 Java 中) ，109-111 
Chips (芯片 )，19, 25, 26 
manufacturing process (制造 工艺 ) ，26 
Classes (级 别 )， 
defined (定义 ) ，0L2. 15-15 
packages ( 包 ) ，0L2. 15-21 
Clock cycles (时 钟 周期 )， 
defined (定义 ) ，33 
memory-stall (存储 阻塞 ) ，399 
number of registers and (寄存 器 数量 ) ，67 
worst-case delay and (最 坏 情 况 下 延迟 ) ，272 
Clock cycles per instruction (CPI) (每 条 指令 执行 
的 时 钟 周期 数 ) ，35 ，282 
one level of caching (一 级 cache) ，410 
two levels of caching (二 级 cache) ，410 
Clock rate (时 钟 频率 ) ， 


defined (定义 ) ，33 
frequency switched as function of (频率 转换 功 
能 ) ，41 
power and (功率 ) ，40 
Clocking methodology (时 钟 同步 法 )，249- 251， 
B-48 
edge-triggered (边沿 触发 )，249，B-48，B-73 
level- sensitive (层次 敏感 )，B-74，B-75-76 
for predictability ( 可 预测 性 ) ，249 
Clocks (时 钟 ) ，B-48-50 
edge (边沿 ) ，B-48 ，B-50 
in edge-triggered design (边沿 触发 设计 ) ，B-73 
skew ( 偏 斜 ) ，B-74 
specification ( 说明书) ，B-57 
synchronous system (同步 系统 ) ，B-48-49 
Cloud computing ( 云 计算 ) ，533 
defined (定义 ), 7 
Cluster networking (集群 网 络 ) ，537-538 ，0L6. 9- 12 
Clusters (集群 ) ，0L6. 15-8-6. 15-9 
defined (定义 ) ，30，500，0L6. 15-8 
isolation ( 隔离)，530 
organization (组 织 ) ，499 
scientific computing on (科学 计算 ) ，0L6. 15-8 
Cm* ，0L6. 15-4 
CMOS (complementary metal oxide semiconductor ) 
(互补 金属 氧化 物 半导体 )，41 
Coarse- grained multithreading ( 粗 粒 度 多 线程 )，514 
Cobol ( Cobol 语言 ) ，0L2. 21-7 
Code generation (代码 生成 ) ，0L2. 15-13 
Code motion (代码 移动 ) ，0L2. 15-7 
Cold-start miss 〈 冷 启动 失效 ) ，459 
Collision misses (冲突 失效 ) ，459 
Column major order ( 按 列 顺序 ) ，413 
Combinational blocks (组 合 块 ) ，B-4 
Combinational control units (组 合 控制 单元 )， 
D-4-8 
Combinational elements (组 合 元 素 ) ，248 
Combinational logic (组 合 逻辑 ) ，249，B-3，B-9-20 
arrays (数组 ) ，B-18-19 
decoders ( 译 人 码 器 ) ，B-9 
defined (定义 )，B-5 
don't cares (无 关 项 ) ，B-17-18 
multiplexors (多 路 选择 器 ) ，B-10 
ROMs (只 读 存储 器 ) ，B-14-16 
two-level (二 级 ) ，B-11-14 
Verilog ( Verilog 语言 ) ，B-23-26 
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Commercial computer development (商用 计算 机 开 
发 ) ，0L1. 12-4-1. 12-10 
Commit units (提交 单元 ) 
buffer (缓冲 区 ) ，339-340 
defined (定义 ) ，339-340 
in update control (更 新 控制 ) ，343 
Common case fast (加 速 大 概率 事件 ) ，11 
Common subexpression elimination (公共 子 表 达 式 消 
除法 ) ，0L2. 15-6 
Communication (通信 ) ，23-24 
overhead reducing (开销 减少 ) ，44-45 
thread (线程 )，C-34 
Compact code (压缩 码 ) ，0L2. 21-4 
Comparison instructions (比较 指令 ) ，A-57-59 
floating- point ( 浮 点 型 ) ，A-74-75 
list of (列表 ) ，A-57-59 
Comparisons (比较 ) ，93 
constant operands in (常量 操作 数 ) ，93 
signed versus unsigned (有 符号 数 与 无 符号 数 )， 
94-95 
Compilers (编译 器 ) ，123-124 
branch creation (创建 分 支 ) ，92 
brief history ( 简 史 )，012.21-9 
conservative (保守 的 )，012. 15 -6 
defined (定义 ) ，14 
front end (前 端 ) ，0L2. 15-3 
function (函数 ) ，14，123-124，A-5-6 
high- level optimizations (高 层次 优化 ) ，0L2. 15-4 
ILP exploitation (指令 级 并 行 开发 ) ，0L4. 16-5 
Just In Time (JIT) (准时 ) ，132 
machine language production (机 器 语言 生成 )， 
A-8-9，A-10 
optimization (优化 ) ，141，0L2.21-9 
speculation (推测 ) ，333-334 
structure (结构 ) ，0L2. 15-2 
Compiling (编译 ) 
C assignment statements (C 赋值 语句 ) ，65-66 
Clanguage (C 语言 )，92-93，145，0L2. 15- 2- 
2. 15-3 
floating- point programs ( 浮 点 运算 程序 ) ，214-217 
if-then-else (if-then-else 语句 ) ，91 
in Java (Java 中 ) 0L2. 15-19 
procedures (过 程 ) ，98 ，101-102 
recursive procedures (递归 过 程 ) ，101-102 
while loops (while 循环 ) ，92-93 
Compressed sparse row (CSR) matrix (压缩 稀 朴 行 


矩阵) ，C-55，C-56 
Compulsory misses (强制 性 失效 ) ，459 
Computer architects (计算 机 设计 ) ，11-12 
abstraction to simplify design (简化 设计 抽象 ) ，11 
common case fast (加 速 大 概率 事件 ) ，11 
dependability via redundancy (通过 宛 余 增 加 可 靠 
性 ) ，12 
hierarchy of memories (存储 体系 层次 )，12 
Moore's law (摩尔 定律 ) ，11 
parallelism (并 行 ) ，12 
pipelining (流水 线 ) ，12 
prediction (预测 ) ，12 
Computers (计算 机 )， 
application classes (应 用 类 别 ) ，5-6 
applications (应 用 程序 ) ，4 
arithmetic for (算法 ) ，176-236 
characteristics (特性 ) ，0OL1. 12-12 
commercial development (商业 性 开发 ) ，0OL1. 
12-4-1. 12-10 
component organization (组 成 结构 ) ，17 
components (组 件 ) ，17，177 
design measure (设计 尺度 ) ，53 
desktop (台式 机 ) ，5 
embedded ( 艇 人 式 ),，5，A-7 
first (第 一 ) ，0L1. 12-2-1. 12-4 
in information revolution (信息 革命 ) ，4 
instruction representation (指令 表示 ) ，80-87 
performance measurement (性 能 测定 ) ，OL1. 12-10 
PostPC Era (后 计算 机 时 代 ) ，6-7 
principles (法 则 ) ，86 
servers (服务 器 ) ，5 
Condition field (条 件 字段 ) ，324 
Conditional branches (条 件 分 支 ) ， 
ARM (Advanced RISC Machines 公司 ) ，147-148 
changing program counter with (更 改 程序 计数 
器 ) ，324 
compiling if-then-else into (将 让 then-else 语句 编 
译 为 ) ，91 
defined (定义 ) ，90 
desktop RISC (精简 指令 集 台 式 机 ) ，E-16 
embedded RISC ( 垦 入 式 精 简 指令 集 ) ，E-16 
implementation (实现 ) ，96 
in loops (in 循环 ) ，115 
PA- RISC (HP 公司 PA- RISC 芯片 )，E- 34， 
E-35 
PC-relative addressing (PC 相对 寻 址 ) ，114 
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RISC (精简 指令 集 计算 机 ) ，E-10-16 
SPARC (可 扩充 处 理 器 架构 )，E-10-12 
Conditional move instructions ( 条件 移动 指令 ) ，324 
Conflict misses ( 冲突 失效 ) ，459 
Constant memory (常量 存储 器 ) ，C-40 
Constant operands (常数 操作 数 ) ，72-73 
in comparisons ( 与 ……- 比较 ) ，93 
frequent occurrence ( 频 发 ) ，72 
Constant- manipulating instructions (常量 操作 指令 )， 
A-57 
Content Addressable Memory (CAM， 按 内 容 访 问 存 
储 器 ) ，408 
Context switch ( 上下文 切换 ) ，446 
Control (控制 ) ， 
ALU (运算 器 ) ，259-261 
challenge (挑战 ) ，325-326 
finishing (完成 ) ，269 -270 
forwarding (转发 / 旁 路 ) ，307 
FSM (有 限 状 态 机 )，D-8-21 
implementation optimizing (实现 优化 ) ，D-27-28 
for jump instruction (〈 跳 转 指 令 ) ，270 
mapping to hardware (映射 到 硬件 )，D-2-32 
memory (存储 器 ) ，D-26 
organizing to reduce logic (组 织 简 化 逻辑 ) ，D- 
31-32 
pipelined (流水 线 ) ，300-303 
Control flow graphs (控制 流 图 ) ，0L2. 15-9-2. 15-10 
illustrated examples (举例 说 明 )，0L2.15- 9， 
0OL2. 15-10 
Control functions (控制 功能 )， 
ALU mapping to gates (算术 逻辑 单元 映射 到 逻 
辑 门 ) ，D-4-7 
defining (定义 ) ，264 
PLA implementation (可 编程 逻辑 阵列 实现 ) ，D- 
7，D-20-21 
ROM encoding (只 读 存 储 器 编码 ) ，D-18-19 
for single- cycle implementation ( 单 周 期 实现 ) ，269 
Control hazards (控制 冒险 )，281-282，316-325 
branch delay reduction (减少 分 支 延 迟 )，318-319 
branch not taken assumption (假定 不 跳 转 ) ，318 
branch prediction as solution (使 用 分 支 预测 作为 
解决 方案 ) ，284 
delayed decision approach (延迟 决定 方法 ) ，284 
dynamic branch prediction (动态 分 支 预测 )， 
321-323 
logic implementation in Verilog (Verilog 中 的 逻辑 


实现 ) ，0L4. 13-8 
pipeline stalls as solution (流水 线 停 顿 解决 方 
案 ) ，282 
pipeline summary (流水 线 小 结 ) ，324 
simplicity (简单 ) ，317 
solutions (解决 方案 ) ，282 
static multiple- issue processors (静态 多 发 射 处 理 
器 )，335-336 
Control lines (控制 线 )， 
asserted (有 效 ) ，264 
in datapath (在 数据 通路 中 ) ，263 
execution/address _ calculation ( 执行/ 地址 计 
算 ) ，300 
final three stages (最 后 三 个 阶段 ) ，303 
instruction decode/register file read (指令 译 码 / 读 
寄存 器 文件 ) ，300 
instruction fetch ( 取 指 令 ) ，300 
memory access (存储 器 访问 ) ，302 
setting of (一 组 ) ，264 
values (数值 ) ，300 
write-back ( 写 回 ) ，302 
Control signals (控制 信和 号) 
ALUOp (ALU 操作 ) ，263 
defined (定义 ) ，250 
effect of (影响 ) ，264 
multi-bit (多 比特 ) ，264 
pipelined datapaths with (流水 线 数据 通路 )， 
300-303 
truth tables ( 真 值 表 ) ，D-14 
Control units (控制 单元 ) ， 见 Arithmetic logic unit 
(ALU), 247 
address select logic (地 址 选择 逻辑 ) ，D-24，D-25 
combinational implementing (组 合 的 实现 ) ，D-4-8 
with explicit counter (使 用 显 式 计数 器 ) ，D-23 
illustrated (举例 说 明 ) ，265 
logic equations (逻辑 方程 ) ，D-11 
main designing (主要 部 分 设计 ) ，261-264 
as microcode (作为 微 程序 ) ，D-28 
MIPS (每 秒 百 万 条 指令 ) ，D-10 
next- state outputs (下 一 状态 输出 ) ，D- 10，D- 
12-13 
output (输出 ) ，259-261，D-10 
Conversion instructions (转换 指令 ) ，A-75-76 
Cooperative thread arrays ( CTA, 合作 的 线程 阵 
列 )，C-30 
Coprocessors ( 协 处 理 器 ) ，A-33-34 


defined (定义 ) ，218 
move instructions (传送 指令 ) ，A-71-72 
Core MIPS instruction set (核心 MIPS 指令 集 ) ， 见 
MIPS, 236, 
abstract view (抽象 图 ) ，246 
desktop RISC (精简 指令 集 台 式 机 ) ，E-9-11 
implementation (实现 ) ，244-248 
implementation illustration (实现 举例 ) ，247 
overview (综述 ) ，245 
subset ( 子 集 ) ，244 
Cores ( 核 ) ， 
defined (定义 ) ，43 
number per chip (每 片 数量 ) ，43 
Correlation predictor (相关 预测 器 ) ，324 
Cosmic Cube (宇宙 立方 ) ，0L6. 15-7 
Count register (计数 寄存 器 ) ，A-34 
CPU ( 中央 处 理 器 ) ，9 
Cray computers ( 克 雷 (公司 ) 计算 机 ) ，0L3. 11- 
5-3. 11-6 
Critical word first (关键 字 优先 ) ，392 
Crossbar networks (交叉 开关 网 络 ) ，535 
CTSS ( CompatibleTime- Sharing System， 兼 容 分 时 
系统 ) ，0L5. 18-9 
CUDA programming environment (CUDA 程序 设计 
环境 ) ，$23 ，C-5 
barrier synchronization (屏蔽 同步 ) ，C-18 ，C-34 
development (开发 ) ，C-17，C-18 
hierarchy of thread groups (线程 群 组 层次 )， 
C-18 
kemels (核心 程序 ) ，C-19 ，C-24 
key abstractions (关键 抽象 ) ，C-18 
paradigm (范例 ) ，C-19-23 
parallel plus- scan template (并 行 plus- scan 软件 
模板 ) ，C-61 
per-block shared memory ( 以 块 为 共享 单位 的 存 
储 器 ) ，C-58 
plus- reduction implementation ( 减少 时 钟 节拍 的 
实现 ) ，C-63 
programs (程序 集 ) ，C-6，C-24 
scalable parallel programming with (可 扩展 的 并 行 
程序 设计 ) ，C-17-23 
shared memories (共享 存储 器 ) ，C-18 
threads (线程 ) ，C-36 
Cyclic redundancy check (循环 元 余 校 验 ) ，423 
Cylinder ( 柱 面 ) ，381 
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D 


D flip-flops (D 触发 器 ) ，B-51，B-53 
D latches (D 型 锁 存 器 ) ，B-51，B-52 
Data bits (数据 位 ) ，421 
Data flow analysis (数据 流 分 析 ) ，0L2. 15-11 
Data hazards (数据 冒险 ) ， 见 Hazards ，278 ，303-316 
forwarding (转发 / 旁 路 ) ，278 ，303-316 
load-use (装载 -使 用 ) ，280，318 
stalls and (停顿 ) ，313-316 
Data layout directives (数据 布局 规则 ) ，A-14 
Data movement instructions (数据 传送 指令 ) ，A-70-73 
Data parallel problem decomposition (数据 并 行 问题 
分 解 ) ，C-17，C-18 
Data race (数据 竞争 ) ，121 
Data segment (数据 段 )，A-13 
Data selectors (数据 选择 器 ) ，246 
Data transfer instructions (数据 传送 指令 ) ， 见 In- 
structions 
defined (定义 ) ，68 
load (装载 ) ，68 
offset (〈 偏 移 量 ) ，69 
store (存储 ) ，71 
Datacenters (数据 处 理 中心 ) ，7 
Data-level parallelism (数据 级 并 行 ) ，508 
Datapath elements (数据 路 径 部 件 ) ， 
defined (定义 ) ，251 
sharing (共享 ) ，256 
Datapaths (数据 路 径 ) 
branch (分 支 ) ，254 
building (生成 )，251-259 
control signal truth tables (控制 信号 真 值 表 ) ，D-14 
control unit (控制 单元 ) ，265 
defined (定义 ) ，19 
design (设计 ) ，251 
exception handling (异常 处 理 ) ，329 
for fetching instructions ( 取 指 令 ) ，253 
for hazard resolution via forwarding (通过 旁 路 解 
决 冒险 ) ，311 
for jump instruction ( 跳 转 指令 ) ，270 
for memory instructions ( 访 存 指令 ) ，256 
for MIPS architecture (MIPS 体系 结构 ) ，257 
in operation for branch- on- equalinstruction (相等 
则 转移 指令 执行 ) ，268 
in operation for load instruction ( 装 人 指令 执行 )，267 
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in operation for R-type instruction (寄存 器 型 指令 


执行 ) ，266 
operation of (……… 的 操作 ) ，264-269 
pipelined (流水 的 ) ，286-303 


for R- type instructions (寄存 器 型 指令 ) ，256， 


264-265 

single creating (单一 创建 ) ，256 

single-cycle ( 单 周期 ) ，283 
static two-issue (静态 双 发 射 ) ，336 
Deasserted signals ( 无效 信 号 )，250，B-4 
Debugging information (调试 信息 ) ，A-13 
DEC PDP-8，0L2.21-3 (DEC PDP-8 机 器 ) ， 
Decimal numbers (十 进 制 数 ) ， 


binary number conversion to (二 进 制 数 转换 ) ，76 


defined (定义 ) ，73 
Decision-making instructions (决策 指令 ) ，90-96 
Decoders ( 译 码 器 ) ，B-9 

two-level (二 级 )，B-65 


Decoding machine language (机 器 语言 译 码 ) ，118-120 


Defect (缺陷 ) ，26 
Delayed branches (延迟 转移 ) ， 见 Branches ，96 


as control hazard solution (作为 分 支 冒险 的 解决 


方案 ) ，284 
defined (定义 ) ，255 


embedded RISCs and ( 舱 和 人 人 式 精 简 指 令 集 计算 


机 ) ，E-23 


for five-stage pipelines (五 级 流水 线 ) ，26，323-324 


reducing (裁剪 ) ，318-319 

scheduling limitations (调度 限制 ) ，323 
Delayed decision (决策 延迟 ) ，284 
DeMorgan ' s theorems ( 德 摩根 定理 ) ，B-11 
Denormalized numbers ( 非 规格 化 数 ) ，222 


Dependability via redundancy (通过 宛 余 提高 可 靠 


性 ) ，12 


Dependable memory hierarchy (可 靠 存储 器 体系 层 


次 ) ，418-423 
failure defining (失效 定义 ) ，418 
Dependences (相关 )， 


between pipeline registers (在 流水 线 寄存 器 之 


间 ) ，308 


between pipeline registers and ALU inputs (在 流水 


线 寄存 器 和 ALU 输入 之 间 ) ，308 
bubble insertion and (气泡 插入 ) ，314 
detection (检测 ) ，306-308 
name (命名 ) ，338 
sequence (时 序 ) ，304 


Design (设计 ) ， 
compromises and (折衷 ) ，161 
datapath (数据 通路 ) ，251 
digital (数字 ) ，354 
logic (逻辑 ) ，248-251，B-1-79 
main control unit ( 主 控制 单元 ) ，261-264 
memory hierarchy challenges (存储 器 体系 层次 挑 
战 ) ，460 
pipelining instruction sets (流水 化 的 指令 集 ) ，277 
Desktop and server RISCs (精简 指令 集 台式 机 和 服 
务 器)， 见 Reduced instruction set computer 
(RISC) architectures 
addressing modes (地 址 模式 ) ，E-6 
architecture summary (体系 结构 概述 ) ，E-4 
arithmetic/logical instructions (算术 /逻辑 指令 ) ， 
E-11 
conditional branches (条 件 转移 ) ，E-16 
constant extension summary (常数 扩展 小 结 ) ，E-9 
control instructions (控制 指令 ) ，E-11 
conventions equivalent to MIPS core (约定 为 与 
MIPS 核 一 致 ) ，E-12 
data transfer instructions (数据 传输 指令 ) ，E-10 
features added to (将 特征 添加 到 ) ，E-45 
floating- point instructions ( 浮 点 型 指令 ) ，E-12 
instruction formats (指令 格式 ) ，E-7 
multimedia extensions (多 媒体 扩展 ) ，E-16-18 
multimedia support (多 媒体 支持 ) ，E-18 
types of (类 型 ) ，E-3 
Desktop computers defined (台式 计算 机 定义 ) ，5 
Device driver (设备 驱动 程序 ) ，0L6. 9-5 
DGEMM (Double precision Ceneral Matrix Multiply ) 
( 双 精 度 通 用 和 矩阵 相 乘 ) ，225 ，352 ，413 ，553 
cache blocked version of (cache 的 分 块 版 本 ) ，415 
optimized C version of (优化 的 C 版 本 )，226， 
227, 476 
performance (性 能 ) ，354 ，416 
Dicing (切割 )，27 
Dies (模具 ) ，26 ，26-27 
Digital design pipeline (数字 设计 流水 线 ) ，354 
Digital signal- processing (DSP) extensions (数字 信 
号 处 理 扩展 ) ，E-19 
DIMMs (dual inline memory modules， 双 列 直 插 存 
储 器 模块 ) ，015. 17-5 
Direct Data IO (DDIO， 直 接 数 据 传输 ) ，0L6. 9-6 
Direct memory access (DMA， 直 接 存储 器 访问 )， 
0L6. 9-4 


索 绚 


Direct3D ( 直接) ，C-13 
Direct- mapped caches (直接 映射 cache) ， 见 Caches 
address portions ，( 地 址 部 分 ) 407 
choice of (……: 的 选择 ) ，456 
defined (定义 ) ，384，402 
illustrated (举例 说 明 ) ，385 
memory block location (存储 器 块 定位 ) ，403 
misses (缺失 ) ，405 
single comparator (一 位 比较 ) ，407 
total number of bits (总 比特 数 ) ，390 
Dirty bit ( 脏 位 ) ，437 
Dirty pages ( 脏 页 ) ，437 
Disk memory (磁盘 存储 器 ) ，381-383 
Displacement addressing ( 偏 移 地 址 ) ，116 
Distributed Block- Interleaved Parity (RAID 5， 分 布 
式 块 交叉 校 验 ) ，015. 11-6 
div (Divide) (除法 )，A-52 
div. d (FP Divide Double， 双 精度 浮 点 除法 )，A-76 
div. s (FP Divide Single， 单 精度 浮 点 除法 ) ，A-76 
Divide algorithm (除法 算法 ) ，190 
Dividend (被 除数 ) ，189 


、 Division (除法 ) ，189- 1L95 


algorithm (算法 ) ，191 
dividend (被 除数 ) ，189 
divisor (除数 ) ，189 
Divisor ( 除数) ，189 
divu (Divide Unsigned， 无 符号 数 除 法 ) ， 见 Arith- 
metic, A-52 
faster (更 快 的 ) ，194 
floating- point ( 浮 点 型 ) ，211，A-76 
hardware (硬件 ) ，189-192 
hardware improved version (硬件 改进 版 ) ，192 
instructions (指令 ) ，A-52-53 
in MIPS (在 MIPS 指令 集中 ) ，194 
operands (操作 数 ) ，189 
quotient ( 商 ) ，189 
remainder (余数 ) ，189. 
signed (有 符号 数 ) ，192-194 
SRT (一 种 除法 算法 的 名 称 ) ，194 
Don 't cares (无 关 的 ) ，B-17-18 
example (实例 ) ，B-17-18 
term (术语 ) ，261 
Double data rate (DDR， 双 倍数 据 速率 ) ，379 
Double Data Rate RAMs (DDRRAM， 双 倍数 据 速 
率 RAM) ，379-380 ，B-65 
Double precision ( 双 精 度 ) ， 见 Single precision De- 
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fined (定义 ) ，198 
FMA (混合 乘 加 单元 ) ，C-45-46 
GPU (图 形 处 理 器 ) ，C-45-46 ，C-74 
Representation (表达 ) ，201 
Double words ( 双 字 ) ，152 
Dual inline memory module (DIMM， 双 列 直 插 存 储 
器 模块 ) ，381 
Dynamic branch prediction (动态 分 支 预测 )， 见 
Control hazards ，321-323 
branch prediction buffer (分 支 预测 缓冲 器 ) ，321 
loops and (循环 ) ，321-323 
Dynamic hardware predictors (动态 硬件 预测 器 ) ，284 
Dynamic multiple-issue processors (动态 多 发 射 处 理 
器 ) ， 见 Multiple issue，333 ，339-341 
pipeline scheduling (流水 线 调度 ) ，339-341 
superscalar (超标 量 ) ，339 
Dynamic pipeline scheduling (动态 流水 线 调度 ) ， 
339-341 
commit unit (提交 单元 ) ，339-340 
concept (概念 ) ，339-340 
hardware- based speculation (基于 硬件 的 推断 ) ，341 
primary units ( 主 单元 ) ，340 
reorder buffer ( 重 排序 缓冲 器 ) ，343 
reservation station (保留 站 ) ，339-340 
Dynamic random access memory ( DRAM, 动态 随机 
访问 存储 器 ) ，378，379-381，B-63-65 
bandwidth external to (外 部 带宽 ) ，398 
cost (代价 ) ，23 
defined (定义 )，19，B-63 
DIMM ( 双 列 直 插 式 存储 模块 )，OLS. 17-5 
Double Date Rate (DDR， 双 倍数 据 速 率 ) ，379-380 
early board (早期 的 标志 ) ，0L5. 17-4 
GPU (图 形 处 理 器 ) ，C-37-38 
growth of capacity (容量 的 增长 ) ，25 
history (历史 记录 ) ，0L5. 17-2 
internal organization of (内 部 组 织 ) ，380 
pass transistor (传输 晶体 管 ) ，B-63 
SIMM ( 单 直 插 存 储 器 模块 ) ，0L5. 17-5，0L5. 17-6 
single-transistor ( 单 晶 体 管 ) ，B-64 
size (尺寸 ) ，398 
speed (速率 ) ，23 
synchronous (SDRAM， 同 步 的 (同步 动态 随机 
存储 器 ) ) ，379-380 ，B-60 ，B-65 
two-level decoder (两 级 译 码 器 ) ，B-65 
Dynamically linked libraries (DLL， 动 态 链接 库 ) ， 
129-131 
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Defined (定义 ) ，129 


lazy procedure linkageversion (惰性 过 程 链 接 版 
本 ) ，130 


E 


Early restart (提前 重启 )，392 
Edge-triggered clocking methodology (边沿 触发 时 钟 
同步 法 ) ，249 ，250 ，B-48 ，B-73 
advantage (优势 ) ，B-49 
clocks (时 钟 ) ，B-73 
drawbacks (次 端 ) ，B-74 
illustrated (举例 说 明 )，B-50 
rising edge/falling edge (上 升 沿 / 下 降 沿 ) ，B-48 
EDSAC (Electronic Delay Storage Automatic Calcula- 
tor) (电子 延 时 存储 自动 计算 器 )，0OL1. 12-3， 
OLS. 17-2 
Fispack (计算 矩阵 特征 值 与 特征 向 量 的 软件 库 由 
Fortran 语言 编写 ) ，0L3. 11-4 
Electrically erasable programmable read- only memory 
(EEPROM， 电 可 擦 除 可 编程 只 读 存储 器 ) ，381 
Elements ( 元素) 
combinational (组 合 的 ) ，248 
datapath (数据 通路 ) ，251 ，256 
memory (存储 器 ) ，B-50-58 
state (状态 ) ，248 ，250 ，252 ，B-48 ，B-50 
Embedded computers ( 磐 人 式 计算 机 ) ，5 
application requirements (应 用 需求 ), 6 
defined (定义 ) ，A-7 
design〈 设 计 ) ，5 
growth (增长 ) ，OL1. 12-12-1. 12-13 
Embedded Microprocessor Benchmark 
Consortium (EEMBC， 般 人 式微 处 理 器 基准 测试 
联盟 ) ，0OL1. 12-12 
Embedded RISCs 〈 艇 入 式 精 简 指令 系统 计算 机 ) ， 
见 Reduced instruction set computer (RISC) 
architectures (体系 结构 ) 
addressing modes ( 寻 址 方式 )，E-6 
architecture summary (体系 结构 概述 ) ，E-4 
arithmetic/logical instructions (算术 /逻辑 指令 ) ， 
E-14 
conditional branches (条 件 转移 ) ，E-16 
constant extension summary (常量 ) ，E-9 
control instructions (控制 指令 ) ，E-15 
data transfer instructions (数据 传输 指令 ) ，E- 13 
delayed branch and (延迟 转移 ) ，E-23 


DSP extensions ( 数字 信和 号 处 理 扩展 ) ，E-19 
general purpose registers (通用 寄存 器 ) ，E-5 
instruction conventions (指令 约定 ) ，E-15 
instruction formats (指令 格式 ) ，E-8 
multiply- accumulate approaches ( 乘 累 加 方法 )， 
E- 19 

types of (类 型 ) ，E-4 

Encoding (编码 ) ， 
defined (定义 ) ，D-31 


floating- point instruction ( 浮 点 指令 ) ，213 


MIPS instruction (MIPS 指令 集 )，83，119，A-49 
ROM control function (ROM 控制 函数 ) ，D-18-19 
ROM logic function (ROM 逻辑 图 数 ) ，B-15 
x86 instruction (x86 指令 ) ，155-156 

ENIAC (Electronic Numerical Integrator and Calculator, 
电子 数字 积分 计算 机 )，OLl. 12-2，OLl. 12- 3， 
OLS. 17-2 

EPIC (Explicitly Parallel Instruction Code， 显 式 并 
行 指令 代码 ) ，0L4. 16-5 

Error correction ( 纠 错 )，B-65-67 

Error Detecting and Correcting Code ( RAID 2， 错 误 
检测 及 校正 码 ) ，0L5. 11-5 

Error detection ( 错误 检测 ) ，B-66 

Error detection code (错误 检测 码 ) ，420 

Ethernet (以 太 网 ) ，23 

EX stage (执行 阶段 )， 
load instructions ( 加载 指 令 )，292 
overflow exception detection (溢出 异常 检测 ) ，328 
store instructions (存储 指令 ) ，294 

Exabyte ( 艾 字 节 (2 的 16 次 方 ) ) ，6 

Exception enable (异常 使 能 ) ，447 

Exception handlers (异常 处 理 程序 ) ，A-36-38 
defined (定义 ) ，A-35 
retum from (从 ……: 返回 ) ，A-38 

Exception program counters (EPC， 异 常 程序 计数 
器 ) ，326 
address capture (地 址 头 ) ，331 
copying (复制 ) ，181 
defined (和 定义) ，181，327 
in restart determination (重启 决策 ) ，326-327 
transferring (转移 ) ，182 

Exceptions (异常 )，325-332，A-33-38 
association (关联 )，331-332 
datapath with controls for handling ( 带 有 控制 处 理 

的 数据 路 径 ) ，329 

defined (定义 ) ，180，326 


detecting (检测 ) ，326 
event types and (事件 类 型 ) ，326 
imprecise (不 精确 的 ) ，331-332 
instructions (指令 ) ，A-80 
interrupts versus (与 中 断 相对 )，325-326 
in MIPS architecture (在 MIPS 体系 结构 中 )， 
326-327 
overflow ( 洲 出 )，329 
PC (程序 计数 器 ) ，445 ，446-447 
pipelined computer example (流水 线 计 算 机 实 
例 ) ，328 
in pipelined implementation (在 流水 线 实现 中 )， 
327-332 
precise (精确 的 ) ，332 
reasons for (原因 )，326-327 
result due to overflow in add instruction (由 于 加 法 
指令 溢出 所 产生 的 结果 ) ，330 
saving/ restoriag stage on (存储 /取出 阶段 ) ，450 
Exclusive OR (XOR) instructions ( 异 或 指令 )，A-57 
Executable files (可 执行 文件 ) ，A-4 
defined (定义 ) ，126 
linker production (链接 程序 生成 ) ，A-19 
Execute or address calculation stage (执行 或 地 址 计 
算 阶段 ) ，292 
Execute/address calculation 
control line (执行 或 地 址 计算 控制 线 ) ，300 
load instruction (加 载 指令 ) ，292 
store instruction (存储 指令 ) ，292 
Execution time (执行 时 间 ) ， 
as valid performance measure (作为 有 效 的 性 能 指 
标 ) ，51 
CPU (中 央 处 理 器 ) ，32，33-34 
pipelining and (流水 线 技术 ) ，286 
Explicit counters ( 显 式 计数 器 ) ，D-23 ，D-26 
Exponents (范例 ) ，197-198 
External labels 〈 外 部 标记 ) ，A-10 


F 


Facilities (设备 ) ，A-14-17 
Failures synchronizer (故障 同步 器 ) ，B-77 
Fallacies ( 廖 误 )， 见 Pitfalls add immediate un- 
signed (加 无 符号 立即 数 ) ，227 
Amdahl's law (〈 阿 姆 达尔 定律 ) ，556 
arithmetic (算法 ) ，229-232 
assembly language for performance (汇编 语言 性 
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能 )，159-160 
commercial binary compatibility importance (商用 
计算 机 二 进 制 兼容 的 重要 性 ) ，160 
defineded (定义 ) ，49 
GPUs (图 形 处 理 器 ) ，C-72-74，C-75 
low utilization uses little power ( 低 利 用 率 低 能 
耗 ) ，50 
peak performance (峰值 性 能 ) ，556 
pipelining (流水 线 技术 ) , 355-356 
powerful instructions mean higher 
performance (强大 的 指令 意味 着 更 高 的 性 能 ) ，159 
right shift ( 右 移 ) ，229 
False sharing ( 伪 共 享 )，469 
Fast carry (快速 进位 ) ， 
with “infinite” hardware ( 带 有 “无 限 的 ” 硬 
件 ) ，B-38-39 
with first level of abstraction (第 一 级 抽象 )， 
B-39-40 
with second level of abstraction (第 二 级 抽象 )， 
B-40-46 
Fast Fourier Transforms (FFT， 快 速 健 里 叶 变 换 )， 
C-53 
Fault avoidance (故障 避免 ) ，419 
Fault forecasting (故障 预测 ) ，419 
Fault tolerance ( 容错 ) ，419 
Fermi architecture，( 费 尔 米 体系 结构 )，523，552 
Field programmable devices ( FPD， 现场 可 编程 器 
件 ) ，B-78 
Field programmable gate arrays (FPGA， 现 场 可 编程 
门 阵列 ) ，B-78 
Fields (字段 ) 
Cause register (原因 寄存 器 ) ，A-34，A35 
defined (定义 )，82 
format (格式 ) ，D-31 
MIPS (每 秒 百 万 条 指令 ) ，82-83 
names (命名 ) ，82 
Status register ( 状态 寄存 器 ) ，A-34，A-35 
Files Register (文件 寄存 器 ) ，252，257，B- 50， 
B-54-56 
Fine- grained multithreading ( 细 粒 度 多 线程 )，514 
Finite- state machines (FSM， 有 限 状 态 机 ) ，451-466， 
B-67-72 
control (控制 ) ，D-8-22 
controllers (控制 器 ) ，464 
for multicycle control (多 周期 控制 ) ，D-9 
for simple cache controller (简单 的 高 速 缓存 控制 
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器 ) ，464-466 
implementation (实现 ) ，463 ，B-70 
Mealy (米利 机 ) ，463 
Moore (摩尔 (音译 ) ) ，463 
next- state function (下 一 状态 函数 ) ，463 ，B-67 
output function (输出 函数 ) ，B-67，B-69 
state assignment ( 状态 指定 ) ，B-70 
state register implementation (状态 寄存 器 实现 )， 
B-71 
style of (类 型 ) ，463 
synchronous (同步 的 ) ，B -67 
SystemVerilog (系统 Verilog) ，0L5. 12-7 
traffic light example ( 交通 灯 实 例 ) ，B-68-70 
Flash memory (闪存 ) ，381 
characteristics (特征 ) ，23 
defined (定义 ) ，23 
Flat address space 〈 单 层 地 址 空间 ) ，479 
Flip-flops (触发 器 ) ， 
D flip-flops (D 触发 器 ) ，B-51，B-53 
defined (定义 )，B-51 
Floating point ( 浮 点 ) ，196-222 ，224 
assembly language (汇编 语言 ) ，212 
backward step (后 退 一 步 ) ，0L3. 11-4-3. 11-5 
binary to decimal conversion (二 - 十进制 转换 ) ，202 
branch (分 支 ) ，211 
challenges (挑战 ) ，232-233 
diversity versus portability (多 样 性 与 便携 性 )， 
OL3. 11 -3-3. 11-4 
division (除法 ) ，211 
first dispute (第 一 个 争端 ) ，0L3. 11-2-3. 11-3 
form (形态 ) ，197 
fused multiply add (乘法 加 法 混合 ) ，220 
guard digits (保护 位 )，218-219 
history (历史 ) ，0L3. 11-3 
IEEE 754 standard (IEEE 754 标准 ) ，198 ，199 
instruction encoding (指令 编码 ) ，213 
intermediate calculations (中 间 计 算 器 ) ，218 
machine Ianguage (机 器 语言 ) ，212 
MIPS instruction frequency for (MIPS 指令 频 
率 ) ，236 
MIPS instructions (MIPS 指令 ) ，211-213 
operands (操作 数 ) ，212 
overflow (溢出 ) ，198 
packed format (压缩 格式 ) ，224 
precision (精度 ) ，230 


procedure with two- dimensional matrices ( 带 有 二 


维 矩 阵 的 过 程 ) ，215-217 
programs compiling (程序 编译 ) ，214-217 
registers (寄存 器 ) ，217 
representation (表述 ) ，197-202 
rounding ( 舍 人 ) ，218-219 
sign and magnitude (符号 和 量 级 ) ，197 
SSE2 architecture ( 流 处 理 单 指令 多 数据 扩展 结 
构 ) ，224-225 
subtraction (减法 ) ，211 
underflow (下 洲 ) ，198 
units (单位 ) ，219 
in x86 (在 x86 中 ) ，224 


Floating vectors ( 浮 点 向 量 ) ，0L3. 11-3 
Floating- point addition ( 浮 点 数 加 法 ) ，203-206 


arithmetic unit block diagram (算术 运算 器 框图 )， 
207 

binary ( 二进制) ，204 

illustrated (举例 说 明 ) ，205 

instructions (指令 ) ，211，A-73-74 

steps (步骤 ) ，203-204 


Floating-point arithmetic (GPU， 浮 点 算法 (图 形 处 


理 器 ) ) ，C-41-46 

basic (基础 的 ) ，C-42 

double precision ( 双 精 度 ) ，C-45-46 ，C-74 
performance (性 能 ) ，C-44 

specialized (专门 的 ) ，C-42-44 

supported formats (支持 的 格式 ) ，C-42 
texture operations (结构 操作 ) ，C-44 


Floating-point instructions ( 浮 点 指令 ) ，A-73-80 


absolute value (绝对 值 ) ，A-73 

addition (加 法 ) ，A-73-74 

comparison (比较 ) ，A-74-75 

conversion (转换 ) ，A-75-76 

desktop RISC (台式 精简 指令 系统 计算 机 )， 
E-12 

division (除法 ) ，A-76 

load (加 载 ) ，A-76-77 

move (移动 ) ，A-77-78 

multiplication (乘法 ) ，A-78 

negation ( 逻辑 非 ) ，A-78-79 

SPARC (可 扩充 处 理 器 架构 ) ，E-31 

square root (平方 根 ) ，A-79 

store (存储 ) ，A-79 

subtraction (减法 ) ，A-79-80 

truncation (截断 ) ，A-80 


Floating-point multiplication ( 浮 点 乘法 ) ，206-210 


索 下 


binary ( 二进制)，210-211 
illustrated (举例 说 明 )，209 
instructions (指令 ) ，211 
significants (有 效 的 ) ，206 
steps (步骤 ) ，206-210 
Flow- sensitive information ( 流 敏 感 信 息 ) ，0L2. 15- 15 
Flushing instructions (冲刷 指令 ) ，318 ，319 
defined (定义 ) ，319 
exceptions and (异常 ) ，331 
For loops (for 循环 ) ，141，0L2. 15-26 
inner (内 部 ) ，0L2. 15-24 
SIMD and ( 单 指令 多 数据 结构 ) ，0L6. 15-2 
Formal parameters (形式 参数 ) ，A-16 
Format fields (格式 字段 ) ，D-31 
Fortran (Fortran 语言 ) ，0L2. 21-7 
Forward references (向 前 引用 ) ，A-11 
Forwarding (传递 / 旁 路 ) ，303-316 
ALU before (算术 逻辑 单元 ) ，309 
control (控制 ) ，307 
datapath for hazard resolution (冒险 决策 数据 通 
路 ) ，311 
defined (定义 ) ，278 
functioning (功能 ) ，306 
graphical representation (图 解 表示 法 ) ，279 
jllustrations (插图 ) ，0L4. 13-26-4. 13-26 
multiple results and (多 重 返回 值 ) ，281 
multiplexors (多 路 旋转 我 器 ) ，310 
pipeline registers before (流水 线 寄存 器 ) ，309 
with two instructions ( 带 有 两 条 指令 ) ，278 
Verilog implementation ( Verilog 程序 实现 )， 
O14. 13-2-4. 13-4 
Fractions ( 分数) ，197 ， 
Frame buffer he i 
Frame pointers ( 帧 指针 ) ，103 
Front end (前 端 ) ，0L2. 15-3 
Fully associative caches (全 相 联 cache) ， 见 Caches 
block replacement strategies ( 块 蔡 换 策略 ) ，457 
choice of (选择 ) ，456 
defined (定义 ) ，403 
memory block location (存储 器 块 定位 ) ，403 
misses (缺失 ) ，406 
Fully connected networks (全 互连网 络 ) ，535 
Function code (功能 码 ) ，82 
Fused-multiply-add (FMA) operation (混合 乘 加 操 
作 ) ，220，C-45-46 
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Game consoles (游戏 控制 ) ，C-9 
Gates ( 门 ) ，B-3，B-8 
AND (与 ) ，B-12，D-7 
delays (延迟 ) ，B-46 
mapping ALU control function to (将 ALU 控制 功 
能 映射 到 ) D-4-7 
NAND (与 非 ) ，B-8 
NOR (或 非 ) ，B-8，B-50 
Gather- scatter (聚集 - 分 散 ) ，$11 ，552 
General Purpose GPUs (GPGPU, 通用 图 形 处 理 
器 ) ，C-5 
General- purpose registers (通用 寄存 器 ) ，150 
architecture (体系 结构 ) ，0L2. 21-3 
embedded RISCs ( 典 人 式 精简 指令 系统 计算 
机 )，E-5 
Generate (生成 ) 
defined (定义 ) ，B-40 
example (实例 ) ，B-44 
super (超级 ) ，B-41 
Gigabyte ( 吉 字 节 ) ，6 
Global common subexpression elimination (全 局 公共 
子 表达 式 消 去 ) ，0L2. 15-6 
Global memory (全 局 存储 器 ) ，C-21，C-39 
Global miss rates (全 局 缺失 率 ) ，416 
Global optimization (全 局 优化 ) ，0L2. 15-5 
code (代码 ) ，0L2. 15-7 
implementing (实现 ) ，0L2. 15-8-2. 15-11 
Global pointers (全 局 指针 ) ， 
GPU computing (GPU os 
ing units (GPUs) 
defined (定义 ) ，C-5 
visual applications (可 视 化 应 用 程序 ) ，C-6-7 
GPU system architectures (GPU 系统 架构 ) ，C-7-12 
graphics logical pipeline ( 图形 逻 辑 流水 线 )， 
C-10 
heterogeneous ( 异 构 )，C-7-9 
implications for (实现 ) ，C-24 
interfaces and drivers (界面 和 驱动 ) ，C-9 
unified (统一 的 ) ，C-10-12 
Graph coloring (图 着 色 ) ，0L2. 15-12 
Graphics displays (图 像 显 示 ) ， 
computer hardware support (计算 机 硬件 支持 )，18 
LCD (液晶 显示 屏 ) ，18 


a Pprocess- 
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Graphics logical pipeline (图 形 逻 辑 流水 线 ) ，C-10 
Graphics processing units (GPU， 图 形 处 理 单元 )， 
见 CPU computing，522-529 
as accelerators ( 加速器 ) ，522 
attribute interpolation (属性 差 值 ) ，C-43-44 
defined (定义 ) ，46，506 ，C-3 
evolution (演变 ) ，C-5 
fallacies and pitfalls 〈( 廖 误 及 陷阱 ) ，C-72-75 
floating- point arithmetic ( 浮 点 运算 )，C- 17， 
C-41-46, C-74 
GeForce 8- series generation ( GeForce 8 代 系 列 )， 
C-5 
general computation (通用 计算 )，C-73-74 
General Purpose (GPGPUs) (通用 CPU ) ，C-5 
graphics mode (图 形 模式 ) ，C-6 
graphics trends (趋势 图 ) ，C-4 
history (历史 ) ，C-3-4 
logical graphics pipeline ( 逐 辑 图 形 流水 线 ) ，C-13-14 
mapping applications to (将 应 用 映射 到 …… 下 
C-55-72 
memory (存储 器 ) ，523 
multilevel caches and (多 级 cache)，522 
N-body applications (多 体 问 题 应 用 ) ，C-65-72 
NVIDIA architecture ( NVIDIA 体系 结构 )， 
523-526 
parallel memory system (并 行 存储 系统 )，C-36-41 
parallelism (并 行 性 )，523，C-76 
performance doubling (性 能 加 倍 ) ，C-4 
perspective (观点 ) ，$27-529 
programming ( 编程 ) ，C-12-24 
programming interfaces to (编程 接口 ) ，C-17 
real-time graphics (实时 图 像 ) ，C-13 
summary (总 结 ) ，C-76 
Graphics shader programs (图 形 着 色 程 序 ) ，C-14-15 
Gresham’”s Law ( 葛 菜 欣 法 则 ) ，236，0L3. 11-2 
Grid computing (网 格 计 算 ) ，533 
Grids (网 格 ) ，C-19 
GTX (GTX 公司 ) ，280 ，548-553 
Guard digits (保护 位 ) ， 
defined (定义 ) ，218 
rounding with (伟人 ) ，219 


H 


Half precision ( 半 精 度 ) ，C-42 
Halfwords ( 半 字 ) ，110 


Hamming，Richard ，420 
Hamming distance ( 汉 明 距离 )，420 
Hamming Error Correction Code (ECC， 汉 明 纠 错 
码 ) ，420-421 
calculating (计算 ) ，420-421 
Handlers (处 理 程序 ) 
defined (定义 ) ，449 
TLB miss (TLB 缺失 ) ，448 
Hard disks (硬盘 ) ， 
access times (访问 时 间 )，23 
defined (定义 )，23 
Hardware (硬件 ) ， 
as hierarchical layer (作为 分 层 的 层次 )，13 
language of (.……… 的 语言 ) ，14-16 
operations (操作 ) ，63-66 
supporting procedures in (支持 过 程 ) ，96-106 
synthesis (综合 ) ，B-21 
translating microprograms to (将 微 程序 转换 为 …… 国 
D-28-32 
virtualizable (虚拟 化 ) ，426 
Hardware description languages (硬件 描述 语言 ) ， 
见 Verilog defined (定义 ) ，B-20 
using (使 用 ) ，B-20-26 
VHDL (一 种 硬件 描述 语言 )，B-20-21 
Hardware multithreading (人 硬件 多 线程 )，514-517 
coarse- grained ( 粗 粒 度 的 )，514 
options (选择 ) ，516 
simultaneous (同时 的 ),，515-517 
Hardware- based speculation (基于 硬件 的 推测 ) ，341 
Harvard architecture ( 哈佛 结构 )，0L1l. 12-4 
Hazard detection units ( 冒险 检测 单元 ) ，313-314 
funetions ( 函数 ) ，314 
pipeline connections for (流水 线 连 接 ) ，314 
Hazards (冒险 ) ， 见 Pipelining control，277- 278 ， 
281-282 ，316-325 
data (数据 ) ，278 ，303-316 
forwarding and (传送 ) ，312 
structural (结构 的 ) ，277 ，294 
Heap ( 堆 ) 
allocating space on (在 …… 上 分 配 空间 ) ，104- 106 
defined (定义 ) ，104 
Heterogeneous systems ( 异 构 系统 )，C-4-5 
architecture (体系 结构 )，C-7-9 
defined (定义 )，C-3 
Hexadecimal numbers (十 六 进 制 数 ) ，81-82 
binary number conversion to (将 二 进 制 数 转换 


Hierarchy of memories (存储 器 层次 ) ，12 

High-Ievel languages (高 级 语言 ) ，14-16，A-6 
benefits (收益 ) ，16 
computer architectures (计算 机 体系 结构 ) ，0L2. 21-5 
importance (重要 性 ) ，16 

High-level optimizations (高 层次 优化 ) ，0L2. 15-4- 
2. 15-5 - 

Hit rate (命中 率 ) ，376 

Hit time (命中 时 间 ) 
cache performance and (cache 性 能 ) ，401-402 
defined (定义 ) ，376 

Hit under miss (命中 少 于 缺失 ) ，472 

Hold time (保持 时 间 ) ，B-54 

Horizontal microcode (水 平 型 微 码 ) ，D- 32 

Hot-swapping ( 热 插 拔 ) ，0L5. 11-7 

Human genome project ( 人 类 基因 组 计划 ) ，4 


WO (输入 /输出 ) ，A-38-40，0L6.9-2，0L6.9- 3 
memory-mapped (存储 器 映射 ) ，A-38 
on system performance (系统 性 能 方面 ) ，0L5. 

11- 2 

LO benchmarks (输入 /输出 基准 测试 程序 )， 
见 Benchmarks 

IBM 360/85 ，( 国际 商用 机 器 公司 ) ，0L5. 17-7 

IBM 701，( 国 际 商用 机 器 公司 ) ，0L1. 12-5 

IBM 7030，( 国际 商用 机 器 公司 ) ，0L4. 16-2 

IBM ALOG (IBM ALOG), OL3.11-7 

IBM Blue Gene (IBM 蓝 色 基因 ) ，0I.6. 15-9-6. 15-10 

IBM Personal Computer (IBM 个 人 计算 机 )， 
OL1. 12-7，0L2. 21-6 

IBM System/360 computers (IBM 系统 /360 计算 
机 ), OL1.12-6，OL3. 11-6，0L4. 16-2 

IBM z/VM (IBM z/VM), OLS. 17-8 

ID stage ( 译 码 阶段 ) 
branch execution in (分 支 执行 ) ，319 
load instructions ( 装 人 指令 ) ，292 
store instruction in (存储 指令 )，291 

IEEE 754 floating- point standard (IEEE 754 浮 点 标 
准 ) ， 见 也 oating point first chips (最 早 的 芯片 )， 
198，199，0L3. 11-8-3. 11-10，0L3，11-8-3. 11-9 
in GPU arithmetic (在 图 形 处 理 单元 算法 中 )， 

C-42-43 

implementation (实现 ) ，0L3. 11-10 
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rounding modes ( 舍 人 模式) ，219 
today (现今 ) ，0L3. 11-10 
If statements (条 件 语 句 ) ，114 
I-format (I 格式 ) ，83 
If-then-else (JIf-then-else 语句 ), 91 
Immediate addressing (立即 寻 址 ) 116 
Immediate instructions (立即 指令 ) ，72 
Imprecise interrupts (不 精确 中 断 ) ，331，0L4. 16-4 
Index-out-of-bounds check (指针 越界 检查 ) ，94-95 
Induction variable elimination (消除 引导 变量 )， 
OL2. 15-7 
Inheritance (继承 ) ，0L2. 15-15 
In-order commit ( 按 序 提交 ) ，341 
Input devices (输入 设备 ) ，16 
Inputs (输入 ) ，261 
Instances (实体 ) ，0L2. 15-15 
Instruction count (指令 计数 ) ，36，38 
Instruction decode/register file read stage (指令 译 码 
/ 读 寄存 器 堆 阶段 ) 
control line (控制 线 ) ，300 
load instruction ( 装 人 指令 ) ，289 
store instruction (存储 指令 ) ，294 
Instruction execution illustrations (指令 执行 图 解 ) ， 
OL4. 13-16-4. 13-17 
clock cycle 9，( 时 钟 周期 ) ，0L4. 13-24 
clock cycles 1 and 2 (时 钟 周 期 1 和 2)， 
O14. 13-21 
clock cycles 3 and 4 (时 钟 周期 3 和 4)， 
O14. 13-22 
clock cycles 5 and 6 (时 钟 周期 5 和 6)， 
O14. 13-23 ，0L4. 13-23 
clock cycles 7 and 8 (时 钟 周期 7 和 8)， 
O14. 13-24 
examples (举例 ) ，0L4. 13-20-4. 13-25 
forwarding ( 旁 路 / 转 发 ) ，0L4. 13- 26- 
4.13-31 
no hazard (无 冒险 ) ，0L4. 13-17 
pipelines with stalls and forwarding (流水 线 
中 的 暂停 和 转移 ) ，0L4. 13-26 ，0L4. 13-20 
Instruction fetch stage ( 取 指 令 阶 段 ) 
control line (控制 线 ) ，300 
load instruction ( 装 人 指令 ) ，289 
store instruction (存储 指令 ) ，294 
Instruction formats (指令 格式 ) ，157 
ARM (ARM 公司 ) ，148 
defined (定义 ) ，81 
desktop/server RISC architectures (台式 机 /服务 


312 





器 精简 指令 体系 结构 ) ，E-7 

embedded RISC architectures ( 髓 入 式 精简 指令 体 
系 结构 ) ，E-8 

I-type (I 型 )，83 

J-type (J 型 )，113 

jump instruction ( 跳 转 指 令 )，270 

MIPS (每 秒 百 万 条 指令 )，148 

R-type (R 型 )，83,， 261 

x86 (x86 计算 机 ) ，157 


conditional branch (条 件 分 支 ) ，90 
conditional move (条 件 传送 ) ，324 
constant-manipulating (常量 操作 ) ，A-57 
conversion (转换 ) ，A-75-76 

core ( 核 ) ，233 

data movement (数据 移动 ) ，A-70-73 
data transfer (数据 传送 ) ，68 

decision- making (决策 制定 ) ，90-96 
defined (定义 ) ，14 ，62 


Instruction latency (指令 延迟 ) ，356 
Instruction mix (指令 混合 比 ) ，39 ，0OL1. 12-10 
JInstruction set architecture (指令 集 架 构 ) 


desktop RISC conventions (台式 精简 指令 集约 
定 ) ，E-12 
division (除法 ) ，A-52-53 


ARM (ARM 公司 ) ，145-147 

branch address calculation (转移 地 址 计算 ) ，254 

defined (定义 ) ，22 ，52 

history (历史 ) ，163 

maintaining (维护 ) ，52 

protection and (保护 ) ，427 

thread (线程 ) ，C-31-34 

virtual machine support (虚拟 机 支持 ) ，426-427 

Instruction sets (指令 集 ) ，235 ，C-49 

ARM (ARM 公司 ) ，324 

design for pipelining ( 流水线 设计 )，277 

MIPS (每 秒 百 万 条 指令 ) ，62，161，234 

MIPS-32 (MIPS-32 指令 集 ) ，235 

Pseudo MIPS ( 伪 MIPS 指令 ) ，233 

x86 growth (x86 增长 ) ，161 

Insbruction-level parallelism (ILP， 指 令 级 并 行 )， 

见 Parallelism ，354 

compiler exploitation (编译 器 开发 ) ，0OL4. 16-5- 
4. 16-6 

defined (定义 ) ，43，333 

exploitation increasing (开发 增长 ) ，343 

and matrix multiply (和 矩阵 乘法 ) ，351-354 

Instructions (指令 )， 见 Arithmetic instructions; 

MIPS; Operands, 60-164, E-25-27, E-40-42 

add immediate (加 立即 数 ) ，72 

addition (加 法 ) ，180，A-51 

Alpha (阿尔 法 ) ，E-27-29 

arithmetic-logical (算术 -逻辑 ) ，251，A-51-57 

ARM (ARM 公司 ) ，145-147 ，E-36-37 

assembly (汇编 ) ，66 

basic block (基本 块 ) ，93 

branch (分 支 ) ，A-59-63 

cache-aware (cache 感知 ) ，482 

comparison ( 比较 ) ，A-57-59 


as electronic signals (电子 信和 号) ，80 

embedded RISC conventions (机 入 式 精 简 指 今 集 
约定 )，E-15 

encoding (编码 ) ，83 

exception and interrupt (异常 和 中 断 ) ，A-80 

exclusive OR ( 异 或 ) ，A-57 

fetching ( 读 取 ) ，253 

fields (字段 ) ，80 

floating-point (x86) (学 点 型 (x86) ) ，224 

floating- point ( 浮 点 型 ) ，211-213 ，A-73-80 

flushing (冲刷 ) ，318，319，331 

immediate (立即 的 ) ，72 

introduction to (引言 ) ，62-63 

jump ( 跳 转 ) ，95 ，97 ，A-63-64 

left-to-right flow ( 从 左 向 右 流 动 )，287-288 

load ( 装 入 ) ，68，A-66-68 

load linked ( 装 人 链接 ) ，122 

logical operations (逻辑 运算 ) ，87-89 

M32R ( 瑞 萨 M32R 系列 32 位 RISC 微机 ) ，E-40 

memory access (存储 器 访问 ) ，C-33-34 

memory-reference (存储 器 引用 /访问 ) ，245 

multiplication (乘法 )，188，A-53-54 

negation (逻辑 非 ) ，A-54 

nop 〈 空 操作 ) ，314 

PA-RISC (惠普 公司 的 RISC 芯片 ) ，E-34-36 

performance (性 能 ) ，35-36 

pipeline sequence (流水 顺序 ) ，313 

PowerPC (是 一 种 RISC 架构 的 CPU 其 基本 的 设 
计 源 自 IBM 的 POWER) ，E-12-13 ，E-32-34 

PIX (PTX), C-31, C-32 

remainder (余数 ) ，A-55 

representation in computer (在 计算 机 中 的 表示 ) ， 
80-87 

restartable (可 重启 的 ) ，450 


索 引 


resuming (恢复 ) ，450 
R-type (R 型 ) ，252 
shift ( 移 位 ) ，A-55-56 
SPARC (可 扩充 处 理 器 架构 )，E-29-32 
store (存储 ) ，71，A-68-70 
store conditional (条 件 存储 ) ，122 
subtraction (减法 )，180，A-56-57 
SuperH (SuperH), E-39-40 
thread (线程 )，C-30-31 
Thumb (重点 ) ，E-38 
trap (陷阱 ) ，A-64-66 
vector (向 量 ) ，510 
as words (以 字 的 形式 ) ，62 
x86 (x86 计算 机 ) ，149-155 
Instructions per clock cycle (IPC， 每 时 钟 周 期 执行 
的 指令 条 数 ) ，333 
Integrated circuits (IC， 集 成 电路 )， 见 specific 
chips，19 
cost (成 本 /开销 ) ，27 
defined (定义 ) 25 
manufacturing process (制造 工艺 ) ，26 
very large-scale (VLSI, 超大 规模 集成 电路 ) ，25 . 
Intel Core i7 (英特尔 酷 害 17)，46-49，244，501， 
548-553 
address translation for (地 址 转换 ) ，471 
architectural registers (体系 结构 级 寄存 器 ) ，347 
caches in (……: 中 的 cache) ，472 
memory hierarchies of (存储 器 层次 ) ，471-475 
microarchitecture ( 微 体系 结构 )，338 
performance of (……… 的 性 能 ) ，473 
SPEC CPU benchmark (SPEC CPU 基准 测试 程序 ) ， 
46-48 
SPEC power benchmark (SPEC 功 耗 基准 测试 程 
序 ) ，48-49 
TLB hardware for (TLB 硬件 ) ，471 
Intel Core i7 920 (英特尔 酷 害 17)，346-349 
microarchitecture ( 微 体 系 结构 )，347 
Intel Core i7 (英特尔 酷 害 17)，960 
benchmarking and rooflines of (屋顶 层 轮 廓 基准 
测试 ) ，548-553 
Intel Core i7 Pipelines (英特尔 酷 上 7 流水 线 技 
术 ) ，344 ，346-349 
memory components (存储 组 件 ) ，348 
performance (性 能 ) ，349-351 
program performance (程序 性 能 ) ，351 
specification (规格 说 明 书 ) ，345 
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Intel IA- 64 architecture (64 位 的 英特尔 架构 )， 
O012. 21-3 
Intel Paragon (英特尔 典范 ) ，0L6. 15-8 
Intel Threading Building Blocks (英特尔 线程 构建 模 
块 ) ，C-60 
Intel x86 microprocessors (英特尔 x86 微 处 理 器 ) ， 
clock rate and power for (时 钟 频 率 和 功率 ) ，40 
Interference graphs (干扰 图 ) ，0L2. 15-12 
Interleaving (交叉 存 取 ) ，398 
Interprocedural analysis ( 过程 间 分 析 ) ，0L2. 15-14 
Interrupt enable (中断 使 能 ) ，447 
Interrupt handlers (中 断 处 理 程序 ) ，A-33 
Interrupt- driven IO (中 断 驱动 输入 /输出 ) ，0L6. 9-4 
Interrupts (中 断 ) ， 
defined (定义 ) ，180 ，326 
event types and ( 事件 类 型 ) ，326 
exceptions versus (异常 与 …… ) ，325-326 
imprecise (不 精确 的 ) ，331，0OL4. 16-4 
instructions (指令 ) ，A-80 
precise (精确 的 ) ，332 
vectored (向 量 )，327 
Intrinsity FastMATH processor ( 内置 FastMATH 处 
理 机 )，395-398 
caches (高 速 缓存 )，396 
data miss rates (数据 缺失 率 ) ，397，407 
read processing ( 读 处 理 ) ，442 
TLB ( 快 表 ) ，440 
write-through processing ( 写 直达 处 理 ) ，442 
Inverted page tables ( 反 置 页 表 ) ，436 
Issue packets (事件 包 ) ，334 


J 


j (Jump)( 跳 转 ) ，64 

jal (Jump And Link) ( 跳 转 链接 指令 ) ，64 

Java 
bytecode ( 字 节 码 )，131 
bytecode architecture ( 字 节 码 结 构 )，012. 15-17 
characters in (*****: 特性 ) ，109-111 
compiling in (编译 …… ) ，0L2. 15-19-2. 15-20 
goals (目标 )，131 
interpreting ( 翻译) ，131，145，0L2. 15- 15- 

2.15-16 

keywords (关键 字 ) ，0L2. 15-21 
method invocation in (方法 调用 ) ，0L2. 15-21 
pointers (指针 ) ，0L2. 15-26 
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primitive types (基本 数据 类 型 )，012. 15-26 
programs starting (程序 开始 ) ，131-132 
reference types (引用 类 型 )，012. 15-26 
sort algorithms (排序 算法 ) ，141 
strings in (字符 串 ) ，109-111 
translation hierarchy ( 翻译 层次 结构 )，131 
while loop compilation in (while 循环 结构 编译 )， 
O12. 15-18-2. 15-19 
Java Virtual Machine (JVM，Java 虚拟 机 )，145， 
O12. 15-16 
jr (Jump Register， 跳 转 寄存 器 ) ，64 
J-type instruction format (J 型 指令 格式 )，113 
Jump instructions ( 跳 转 指令 ) ，254 ，E-26 
branch instruction versus (分 支 指令 与 …… ) ，270 
control and datapath for (控制 和 数据 通路 ) ，271 
implementing (实现 ) ，270 
instruction format (指令 格式 ) ，270 
list of (……… 的 清单 ) ，A-63-64 
Just m Time (JIT) compilers (准时 制 编译 器 )， 
132, 560 


K 


Karnaugh maps ( 卡 诺 图 ) ，B-18 

Kernel mode (核心 态 ) ，444 

Kernels (核心 程序 )， 
CUDA (统一 计算 架构 )，C-19，C-24 
defined (定义 ) ，C-19 

Kilobyte ( 千 字 节 ) ，6 


Labels (标签 )， 
型 obal (全 局 ) ，A-10，A-11 
local ( 局部) ，A-11 
LAPACK (线性 代数 程序 包 ) ，230 
Large- scale multiprocessors (大 规模 多 处 理 机 )， 
0L6. 15-7, OL6. 15-9-6. 15-10 
Latches ( 锁 存 器 )， 
D latch (D 锁 存 器 )，B-51，B-52 
defined (定义 )，B-51 
Latency (延迟 ) 
instruction (指令 ) ，356 
memory (存储 器 ) ，C-74-75 
pipeline (流水 线 ) ，286 
use (使 用 ) ，336-337 
lbu (Load Byte Unsigned， 无 符号 数 装 人 寄存 器 ) ，64 


Leaf procedures (叶子 过 程 )， 见 Procedures 
defined (定义 ) ，100 
example (实例 ) ，109 
Least recently used (LRU ， 最 近 最 少 使 用 ) ， 
as block replacement strategy (作为 块 替换 策略 )， 
457 
defined (定义 ) ，409 
pages (页 ) ，434 
Least significant bits (最 低 有 效 位 )，B-32 
defined (定义 ) ，74 
SPARC 〈 可 扩充 处 理 器 架构 ) ，E-31 
Left-to- right instruction flow (从 左 向 右 指令 流 ) ， 
287-288 
Level- sensitive clocking (对 层次 敏感 的 时 钟 ) ， 
B-74, B-75-76 
defined (定义 ) ，B-74 
two-phase (二 相 ) ，B-75 
lhu (Load Halfword Unsigned) ( 装 人 半 字 节 无 符号 
数 ) ，64 
li (Load Immediate， 立 即 数 装 和 人) ，162 
Link 〈 链 接 ) ，0L6. 9-2 
Linkers (链接 器 ) ，126-129，A-18-19 
defined (定义 ) ，126，A-4 
executable files (可 执行 文件 ) ，126 ，A-19 
function illustration (功能 说 明 ) ，A-19 
steps (步骤 ) ，126 
using (使 用 ) ，126-129 
Linking object files (目标 文件 链接 )，126-129 
Linpack (线性 系统 软件 包 ) ，538 ，0L3. 11-4 
Liquid crystal displays (LCD ， 液 晶 显 示 器 ) ，18 
LISP SPARC support (LISP 语言 可 扩充 处 理 器 架构 
支持 ) ，FE-30 
Little-endian byte order (低位 低 址 字 节 次 序 )， 
A-43 
Live range (生命 期 ) ，0L2. 15-11 
Livermore Loops (Livermore 循环 ) ，0OL1. 12-11 
1 (Load Linked， 装 入 链接 ) ，64 
Load balancing ( 负载 平衡 ) ，505-506 
Load instructions ( 装 人 指令 ) ， 见 Store instructions 
access (访问 ) ，C-41 
base register ( 基 址 寄存 器 ) ，262 
block ( 块 ) ，149 
compiling with (用 …… 编译 ) ，71 
datapath in operation for (运行 中 的 数据 通 
路 ) ，267 
defined (定义 )，68 


details (细节 ) ，A-66-68 
EX stage (执行 阶段 ) ，292 
floating-point ( 浮 点 型 ) ，A-76-77 
halfword unsigned ( 半 字 无 符号 数 ) ，110 
ID stage (指令 译 码 阶段 ) ，291 
IF stage ( 取 指 阶段 ) ，291 
linked (已 链接 的 ) ，122 ，123 
list of (…… 的 列表 ) ，A-66-68 
load byte unsigned (无 符号 数 装 人 寄存 器 ) ，76 
load half ( 装 人 半 字 ) ，110 
load upper immediate ( 装 人 立即 数 高 字 节 ) ， 
112，113 
MEM stage ( 访 存 阶段 )，293 
pipelined datapath in (流水 线 数据 通路 ) ，296 
signed (有 符号 的 ) ，76 
unit for implementing (执行 单元 ) ，255 
unsigned (无 符号 的 ) ，76 
WB stage ( 写 回 阶段 ) ，293 
Load word ( 装 人 字 ) ，68，71 
Loaders (装载 器 ) ，129 
Loading (装载 ) ，A-19-20 
Load- store architectures (装载 - 存储 体系 结构 ) ， 
O12. 21-3 
Load-use data hazard ( 装 人 - 使 用 数据 冲突 )， 
280, 318 
Load-use stalls ( 装 和 人 - 使 用 停顿 ) ，318 
Local area networks (LAN， 局 域 网 )， 
works ，24. 
Local labels 〈 局 部 标记 ) ，A-11 
Local memory (局 部 存储 器 ) ，C-21，C-40 
Local miss rates (局 部 缺失 率 ) ， 5 
Local optimization (局 部 优化 )， 
O12. 15-5 
implementing ( 实现) ， 
Locality (局 部 性 )， 
principle (原则 ) ，374 
spatial (空间 的 ) ，374，377 
temporal (时 间 的 ) ，374 ，377 
Lock synchronization (同步 锁 ) ，121 
Locks ( 锁 ) ， 518 
Logic (逻辑 ) 
address select (地 址 选择 ) ，D-24 ，D-25 
ALU control (ALU 控制 ) ，D-6 
combinational (组 合 的 ) ，250，B-5，B-9-20 
components (组 件 ) ，249 
control unit equations (控制 部 件 方程 式 ) ，D-11 


见 Net- 


见 Optimization ， 


OL2. 15-8 
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design (设计 ) ，248-251 ，B-1-79 
equations (方程 式 ) ，B-7 
minimization (最 小 化 ) ，B-18 
programmable array (PAL， 可 编程 阵列 ) ，B-78 
sequential (顺序 的 ) ，B-5，B-56-58 
two-level (两 级 ) ，B-11-14 
Logical operations ( 逻辑 操作 ) ，87-89 
AND (与 ) ，88，A-52 
ARM (ARM 公司 ) ，149 
desktop RISC (台式 精简 指令 系统 计算 机 )， 
E-11 
embedded RISC 〈 舱 人 式 精 简 指 
E-14 
MIPS (每 秒 百 万 条 指令 ) ，A-51-57 
NOR (或 非 ) ，89 ，A-54 
NOT ( 非 )，89，A-55 
OR (或 ) ，89，A-55 
shifts (转换 ) ，87 
Long instruction word (LIW， 长 指令 字 ) ，0L4. 16-5 
Lookup tables (LUT， 查 找 表 ) ，B-79 
Loop unrolling (循环 展开 ) ， 
defined (定义 ) ，338 ，0L2. 15-4 
for multiple-issue pipelines (多 发 射流 水 线 ) ，338 
register renaming and (寄存 器 重 命名 ) ，338 
Loops (循环 ) ，92-93 
conditional branches in (条 件 分 支 ) ，114 
for (for 语句 ) ， 
prediction and ( ml), 
test (测试 ) ，142，143 
while compiling ( while 语句 编译 ) ，92-93 
lui (Load Upper Imm. ， 装 人 立即 数 高 位 ) ，64 
lw (Load Word， 装 人 字 ) ，64 
lwcl (Load FP Single， 装 人 单 精 度 浮 点 数 ) ，A-73 


M 


令 系统 计算 机 ) ， 


321-323 


M32R ( 瑞 萨 M32R 族 32 位 RISC 微机 ) ，E- 15， 
E-40 
Machine code (机 器 代码 ) ，81 
Machine instructions (机 器 指令 ) ，81 
Machine language (机 器 语言 ) ，15 
branch offset in (分 支 偏 移 ) ，115 
decoding ( 译 码 ) ，118-120 
defined (定义 ) ，14，81，A-3 
floating-point ( 浮 点 型 ) ，212 
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ilustrated (举例 说 明 )，15 
MIPS (每 秒 百 万 条 指令 ) ，85 
SRAM (静态 随机 存储 器 ) ，21 
translating MIPS assembly language into (将 MIPS 
汇编 语言 转换 为 …… ) ，84 
Macros ( 宏 命 令 )， 
defined (定义 ) ，A-4 
example (实例 ) ，A-15-17 
use of (用 于 ……: ), A-15 
Main memory ( 主 存储 器 ) ， 见 Memory ，428 
defined (定义 ) ，23 
page tables (页 表 ) ，437 
physical addresses ( 物理 地 址 ) ，428 
Mapping applications (映射 应 用 ) ，C-55-72 
Mark computers (标记 计算 机 )，OL1. 12-14 
Matrix multiply (和 矩阵 乘法 ) ，225-228 ，553-555 
Mealy machine ( Mealy 有 限 状 态 机 ) ，463-464，B- 
68 ，B-71，B-72 
Mean time to failure ( MTTF， 平均 无 故障 时 间 )，418 
improving (改进 ) ，419 
versus AFR of disks (相对 于 磁盘 的 容许 故障 
率 ) ，419-420 
Media Access Control (MAC) address (媒体 访问 控 
制 地 址 ) ，0L6. 9-7 
Megabyte 〈 兆 字 节 ) ，6 
Memory (存储 器 ) ， 
addresses (地 址 ) ，77 
affinity ( 紧密 程度 ) ，545 
atomic (原子 性 )，C-21 
bandwidth (带宽 )，380-381，397 
cache (高 速 缓冲 存储 器 ) ，21，383-398，398-417 
CAM (计算 机 辅助 制造 ) ，408 
constant ( 常量) ，C-40 
control ( 控制 ) ，D-26 
defined (定义 ) ，19 
DRAM (动态 随机 存 取 存储 器 ) ，19，379-380 , 
B-63-65 
flash (闪存 )，23 
global (全 局 ) ，C-21，C-39 
CPU (图 形 处 理 单 元 ) ，523 
instructions datapath for (指令 .……… 的 数据 通 
路 ) ，256 
layout (布局 ) ，A-21 
local (局 部 ) ，C-21 ，C-40 
main ( 主要 的 ) ，23 
nonvolatile ( 非 易 失 性 ) ，22 


operands (操作 数 ) ，68-69 
parallel system ( 并 行 系统 ) ，C-36-41 
read-only (ROM) (只 读 存 储 器 ) ，B-14-16 
SDRAM (同步 动态 随机 存储 器 ) ，379-380 
secondary (辅助 的 ) ，23 
shared (共享 的 ) ，C-21 ，C-39-40 
spaces (空间 ) ，C-39 
SRAM (静态 随机 存储 器 ) ，B-58-62 
stalls (停顿 ) ，400 
technologies for building (生成 技术 ) ，24-28 
texture ( 结构) ，C-40 
usage (用 法 ) ，A-20-22 
virtual ( 虚拟) ，427-454 
volatile ( 易 失 性 ) ，22 
Memory access instructions ( 访 存 指令 )，C-33-34 
Memory access stage ( 访 存 阶段 )， 
control line (控制 线 ) ，302 
load instruction ( 装 人 指令 ) ，292 
store instruction (存储 指令 ) ，292 
Memory bandwidth (存储 器 带宽 ) ，551，557 
Memory consistency model (存储 一 致 性 模型 ) ，469 
Memory elements (存储 单元 ) ，B-50-58 
clocked (时 钟 控制 ) ，B-5S1 
D flip-flop (D 触发 器 ) ，B-51，B-53 
D latch (D 锁 存 器 ) ，B-52 
DRAMs (动态 随机 存 取 存储 器 ) ，B-63-67 
flip-flop (触发 器 ) ，B-51 
hold time (保持 时 间 )，B-54 
latch ( 锁 存 器 ) ，B-51 
setup time (建立 时 间 ) ，B-53 ，B-54 
SRAMs (静态 随机 存储 器 ) ，B-58-62 
unclocked (不 受 时 钟 约束 ) ，B-51 
Memory hierarchies (存储 器 层次 ) ，545 
of ARM cortex- A8 ( ARM cortex- A8 芯片 )， 
471-475 
block (or line) ( 块 (或 行 ) ) ，376 
cache performance (cache 性 能 ) ，398-417 
caches (高 速 缓存 ) ，383-417 
common framework (通用 框架 )，454-461 
defined (定义 ) ，375 
design challenges (设计 挑战 ) ，461 
development (发展 ) ，015. 17-6-5. 17-8 
exploiting (开发 ) ，372-498 
of Intel core (英特尔 酷睿 了 嫌 处理 器 )， 
471-475 
level pairs (水 平 对 )，376 


multiple levels (多 层次 ) ，375 

overall operation of (整体 操作 ) ，443-444 

parallelism and (并 行 度 ) ，466-470，0L5. 11-2 

pitfalls (陷阱 ) ，478-482 

program execution time and (程序 执行 时 间 ) ，417 

quantitative design parameters (定量 设计 参数 ) ，454 

redundant arrays and inexpensive disks (廉价 磁盘 
元 余 阵 列 ) ，470 

reliance on (可 信 性 ) ，376 

structure (结构 ) ，375 

structure diagram (结构 图 ) ，378 

variance (变化 ) ，417 

virtual memory ( 虚拟 存储 器 ) ，427-454 

Memory rank (存储 体 ) ，381 
Memory technologies (存储 技术 ) ，378-383 

disk memory (磁盘 存储 器 ) ，381-383 

DRAM technology (动态 随机 存 取 存 储 器 技术 )， 
378 ，379-381 

fash memory (闪存 ) ，381 

SRAM technology (静态 随机 存储 器 技术 )， 
378 ，379 


Memory- mapped LO (存储 器 映射 输入 /输出 ), 


0L6. 9-3 

use of (用 作 .………: ) ，A-38 
Memory- stall clock cycles (存储 器 停顿 时 钟 周 

期 ) ，399 
Message passing (消息 传送 ) ， 

defined (定义 ) ，529 

multiprocessors (多 处 理 器 ) ，529-534 
Metastability ( 亚 稳 态 ) ，B-76 
Methods (方法 )， 

defined (定义 ) ，0L2. 15-5 

invoking in Java (在 Java 中 调用 ) ，0L2. 15-20- 

2.15-21 

static (静态 ) ，A-20 
mfcO (Move From Control ) 

A-71 
mfhi (Move From Hi) (从 Hi 中 移出 )，A-71 
mflo (Move From Lo) (从 Lo 中 移出 ) ，A-71 
Microarchitectures ( 微 体系 结构 )，347 

Intel Core i7 (英特尔 酷 害 17 处 理 器 ) ，920，347 
Microcode ( 微 码 ) 

assembler (汇编 器 ) ，D-30 

control unit as (控制 单元 ) ，D-28 

defined (定义 ) ，D-27 

dispatch ROMs ( 只 读 存 储 器 调度 ) ，D-30-31 


(从 控制 器 中 移出 ) ， 
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horizontal (水 平 的 )，D-32 
vertical (垂直 的 ) ，D-32 
Microinstructions ( 微 指令 ) ，D-31 
Microprocessors ( 微 处 理 器 )， 
design shift (设计 转换 ) ，501 
multicore ( 多核) ，8，43 ，500-501 
Microprograms ( 微 程序 ) ， 
as abstract control representation (作为 抽象 控制 
的 表达 ) ，D-30 
field translation (现场 翻译 ) ，D-29 
translating to hardware (转换 为 硬件 ) ，D-28-32 
Migration (迁移 ) ，467 
Million instructions per second ( MIPS) 
条 指令 ) ，51 
Minterms (最 小 项 ) ， 
defined (定义 ) ，B-12 ，D-20 
in PLA implementation (在 可 编程 逻辑 阵列 中 的 
实现 ) ，D-20 
MIP-map (MIP 映射 ) ，C-44 
MIPS (MIPS 技术 公司 ) ，64，84 ，A-45-80 
addressing for 32- bit immediates (32 位 立即 数 寻 
址 ) ，116-118 
addressing modes ( 寻 址 方式 ) ，A-45-47 
arithmetic core (算法 核心 ) ，233 
arithmetic _ instructions (算术 运算 指令 )，63， 
A-51-57 
ARM similarities (类 似 ARM),， 146 
assembler directive support (汇编 指令 支持 )， 
A-47-49 
assembler syntax (汇编 语法 ) ，A-47-49 
assembly instruction mapping (汇编 指令 映射 )， 
80-81 
branch instructions (分 支 指令 ) ，A-59-63 
comparison instructions ( 比较 指令 ) ，A-57-59 
compiling C assignment statements into (将 C 的 赋 
值 语句 编译 为 ……) ，65 
compiling complex C assignment into (将 复杂 的 C 
赋值 编译 为 人 ) 65-66 
constant- manipulating instructions (常量 操作 指 
令 ) ，A-57 
control registers (控制 寄存 器 ) ，448 
control unit (控制 单元 ) ，D-10 
CPU (中 央 处 理 器 ) ，A-46 
divide in (分 成 ) ，194 
exceptions in (……: 中 的 异常 ) ，326-327 
fields (字段 ) ，82-83 
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floating- point instructions ( 浮 点 指令 ) ，211-213 
FPU ( 浮 点 运算 单元 ) ，A-46 
instruction classes (指令 类 型 ) ，163 
instruction encoding (指令 编码 ) ，83，119，A-49 
instruction formats (指令 格式 )，120，148， 
A-49-51 
instruction set (指令 集 ) ，62 ，162 ，234 
jump instructions ( 跳 转 指令 )，A-63-66 
logical instructions (逻辑 运算 指令 ) ，A-51-57 
machine language (机 器 语言 ) ，85 
memory addresses (存储 器 地 址 ) ，70 
memory allocation for program and data ( 程序 和 数 
据 的 存储 器 分 配 ) ，104 
multiply in (在 …… 中 相 乘 ) ，188 
opcode map (操作 码 映射 ) ，A-50 
operands (操作 数 ) ，64 
Pseudo ( 伪 ) ，233 ，235 
register conventions (寄存 器 使 用 约定 ) ，105 
static multiple issue with (静态 多 发 射 )，335-338 
MIPS core ( MIPS 核 )， 
architecture (体系 结构 ) ，195 
arithmetic/logical instructions not in (不 包含 算 
术 / 逻 辑 指令 ) ，E-21 ，E-23 
common extensions to (通用 扩展 ) ，E-20-25 
control instructions not in (不 包含 控制 指令 )，E-21 
data transfer instructions not in (不 包含 数据 传送 
指令 ) ，E-20 ，E-22 
floating- point instructions not in (不 包含 浮 点 指 
令 ) ，E-22 
instruction set (指令 集 ) ，233 ，244-248，E-9-10 
MIPS-16 (MIPS ) ， 
16-bit instruction set (16 位 指令 集 ) ，E-41-42 
immediate fields (立即 数字 段 ) ，E-41 
instructions (指令 ) ，E-40-42 
MIPS core instruction changes ( MIPS 核 指令 变 
化 ) ，E-42 
PC-relative addressing (PC 相对 寻 址 ) ，E-41 
MIPS-32 instruction set (MIPS32 位 指令 集 ) ，235 
MIPS-64 instructions (MIPS 64 位 指令 ) ，E-25-27 
conditional procedure call instructions (有 条 件 的 
过 程 调用 指令 ) ，E-27 
constant shift amount (连续 的 位 移 量 ) ，E-25 
jump/call not PC- relative (PC 不 相关 跳 转 / 调 
用 ) ，E-26 
move to/from control registers ( 跳 转 到 /来 自 寄 存 
器 ) ，E-26 


nonaligned data transfers (不 成 行 的 (边界 未 对 
齐 的 ) 数据 传送 ), E-25 
NOR (或 ) ，E-25 
parallel single precision floating- point operations 
(并 行 单 精度 浮 点 运算 ) ，E-27 
reciprocal and reciprocal square root (倒数 和 倒数 
平方 根 ) ，E-27 
SYSCALL (系统 调用 ) ，E-25 
TLB instructions (TLB 指令 ) ，E-26-27 
Mirroring (镜像 ) ，0L5. 11-5 
Miss penalty (缺失 损失 ) ， 
defined (定义 ) ，376 
determination (决策 ), 391-392 
multilevel caches reducing (多 级 高 速 缓 存 减 
少 ) ，410 
Miss rates (缺失 率 ) ， 
block size versus ( 块 的 大 小 ) ，392 
data cache (数据 高 速 缓存 ) ，455 
defined (定义 ) ，376 
gobal (全 局 ) ，416 
improvement (改进 ) ，391-392 
Intrinsity FastMATH processor (内 置 的 FastMATH 
处 理 器 ) ，397 
local (本 地 ) ，416 
miss sources (缺失 原因 ) ，460 
split cache (缓存 拆 分 ) ，397 
Miss under miss ( 缺失 情况 下 的 缺失 ) ，472 
MMX (MultiMedia eXtension) (多 媒体 扩展 ) ，224 
Modules (模块 ), A-4 
Moore machines (摩尔 机 )，463- 464，B- 68，B- 
71，B-72 
Moore '" s law (摩尔 定律 ) 11, 379, 522，016. 9- 
2，C-72-73 
Most significant bit (最 高 位 ) ， 
1-bit ALU for (1 位 ALU), B-33 
defined (定义 ) ，74 
move (传送 ) ，139 
Move instructions (传送 指令 ) ，A-70-73 
coprocessor ( 协 处 理 信息 ), A-71-72 
details (细节 ) ，A-70-73 
floating-point ( 浮 点 ) ，A-77-78 
MS- DOS (微软 -磁盘 操作 系统 ) ，0L5. 17-11 
mul.d (FP Multiply Double， 双 精度 浮 点 乘法 )， 
A-78 
mul.s (FP Multiply Single， 单 精度 浮 点 乘法 )， 
A-78 
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mult (Multiply， 乘 法 ) ，A-53 
Multicore ( 多核) ，5$17-521 
Multicore multiprocessors ( 多核 多 处 理 器 ) ，8，43 
defined (定义 ), 8，500-501 
MULTICS ( Multiplexed Information and Computing 
Service， 复 用 信息 和 计算 服务 )，0L5. 17- 9- 
5. 17-10 
Multilevel caches (多 级 缓存 ) ， 见 Caches complica- 
tions (并 发 性 ) ，416 
defined (定义 ) ，398 ，416 
miss penalty reducing (减少 缺失 代价 ) ，410 
performance of (性 能 ) ，410 
summary ( 总结), 417-418 
Multimedia extensions (多 媒体 扩展 )， 
desktop/server RISCs (桌面 /服务 器 RISCs)，E- 
16-18 
as SIMD extensions to instruction sets (作为 SIMD 
指令 集 的 扩展 ) ，0L6. 15-4 
vector versus (矢量 ), 511-512 
Multiple dimension arrays ( 多维 数组 ) ，218 
Multiple instruction multiple data (MIMD ， 多 指令 多 
数据 ) ，558 
defined (指令 )，507，508 
first multiprocessor (第 一 个 多 处 理 器 ) ，0L6. 15-14 
Multiple instruction single data ( MISD， 多 指令 单数 
据 ) ，507 
Multiple issue (多 发 射 ) ,332-339 
code scheduling (代码 调度 ), 337-338 
dynamic (动态 ) ,333，339-341 
issue packets (事件 包 ) ，334 
loop unrolling and (循环 展开 ) ，338 
processors (处理 器 ) ，332 ，333 
static (静态 的 ), 333，334-339 
throughput and (吞吐 量 )，342 
Multiple processors (多 个 处 理 器 ), 553-555 
Multiple- clock-cycle pipeline diagrams (多 时 钟 周期 
流水 线 图 ) ，296-297 
five instructions (五 条 指令 )，298 
ilustrated (说 明 )，298 
Multiplexors (多 路 选择 器 ) ，B-10 
controls (控制 ) ，463 
in datapath (数据 通路 ) ，263 
defined (定义 ) ，246 
forwarding control values (转发 / 旁 路 控制 值 ) ，310 
selector control (选择 控制 ), 256-257 
two-input ( 双 输 入 ) B-10 
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Multiplicand (被 乘 数 ) ，183 
Multiplication (乘法 ) ， 见 Arithmetic，183-188. 
fast hardware (快速 ， 硬 件 ) ，188 
faster (更 快 ), 187-188 
first algorithm (第 一 种 算法 ) 185 
floating- point ( 浮 点 ) ，206-208 ，A-78 
hardware (硬件 ) ，184-186 
instructions (指令 ) ，188 ，A-53-54 
in MIPS (在 MIPS 中 ) ，188 
multiplicand (被 乘 数 ) ，183 
multiplier (乘法 器 ) ，183 
operands (操作 数 ) ，183 
product (乘积 ) ，183 
sequential version (时 序 版 本 ), 184-186 
signed (有 符号 的 ) ，187 
Multiplier (乘法 器 ) ，183 
Multiply algorithm (乘法 算法 ) ，186 
Multiply-add (MAD， 乘 累加 ) ，C-42 
Multiprocessors (多 处 理 器 ) ， 
benchmarks ( 基准 程序 ), 538-540 
bus- based coherent (基于 总 线 的 一 致 性 ) ，0L6. 15-7 
defined (定义 ) ，500 
historical perspective (历史 的 角度 )，561 
large- scale (大 规模 ) ，0L6. 15-7-6. 15-8，0OL6. 15- 
9-6.15-10 
message-passing ( 消息 传递 ), 529-534 
multithreaded architecture (多 线程 架构 )，C-26- 
27, C-35-36 
organization (组 织 )，499,，529 
for performance (性 能 ) ，559 
shared memory (共享 存储 器 ) , 501，517-521 
software (软件 ) ，500 
TFLOPSOL6. 15-6 
UMA (一 致 性 存储 器 访问 ) ，518 
Multistage networks (多 级 网 络 ) ，535 
Multithreaded multiprocessor architecture ( 多 线程 多 
处 理 器 架构 ) ，C-25-36 
conclusion (结论 ) ，C-36 
ISA (指令 集体 系 结构 )，C-31-34 
massive multithreading (大 规模 多 线程 ) ，C-25-26 
multiprocessor (多 处 理 器 ) ，C-26-27 
multiprocessor comparison (多 处 理 器 比较 )， 
C-35-36 
SIMT ( 单 指令 多 线程 )，C-27-30 
special function units (SFU, 特殊 功能 单元 )， 
C-35 


520 








streaming processor (SP， 流 处 理 器 ) ，C-34 
thread instructions (线程 指令 ), C-30-31 
threads/thread blocks management (线程 /线程 块 
管理 ) ，C-30 
Multithreading (多 线程 ) ，C-25-26 
coarse- grained ( 粗 粒 度 ) ，514 
defined (定义 )，506 
fine- grained ( 细 粒 度 ) ，514 
hardware (硬件 ), 514-517 
simultaneous (SMT， 同时 (同时 多 线程 ))， 
515-517 
multu ( Multiply Unsigned， 无 符号 乘法 ) ，A-54 
Must-information ( 必 备 信息 ) ，0L2. 15-5 
Mutual exclusion ( 互 斥 ) ，121 


N 


Name dependence (名 字 相 关 ) ，338 
NAND gates ( 与 非 门 ) ，B-8 
NAS (NASA Advanced Supercomputing， 一 种 并 行 
的 基准 测试 程序 ) ，540 
N-body (CN 体 ) 
all-pairs algorithm ( 穷 举 算法 ) ，C-65 
GPU simulation (GPU 模拟 ) ，C-71 
mathematics ( 数学) ，C-65-67 
multiple threads per body (每 个 体 多 个 线程 ) ，C- 
68-69 
optimization (优化 ) ，C-67 
performance comparison (性 能 比较 ) ，C-69-70 
results (结果 ) ，C-70-72 
shared memory use (存储 器 共享 使 用 ) ，C-67-68 
Negation instructions ( 求 相 反 数 的 指令 ) ，A-54 ，A- 
78-79 
Negation shortcut 〈 求 相反 数 的 简便 方法 ) ，76 
Nested procedures ( 舱 套 过 程 ) ，100-102 
compiling recursive procedure showing (对 递归 过 
程 进行 编译 的 展示 ), 101-102 
NetFPGA 10- Gigagit Ethernet card ( NetFPGA 10-G 
以 太 卡 ) ，0L6. 9-2 ，0L6. 9-3 
Network of Workstations (工作 站 的 网 络 ) ，0L6. 15- 
8-6. 15-9 
Network topologies (网 络 拓扑 结构 ) ,534-537 
implementing ( 实现) ，536 
multistage (多 级 ) ，537 
Networking (网 络 ) ，0L6. 9-4 
operating system in (操作 系统 )，OL 6.9- 4- 


6. 9-5 
performance improvement (性 能 提高 ) ，0L6. 9-7- 
6.9-10 
Networks (网 络 ) ,23-24 
advantages (优势 ) ，23 
bandwidth (带宽 ) ，535 
crossbar (交叉 开关 ) ，535 
fully connected (全 互 连 ) ，535 
local area (LAN ， 局 域 网 ) ，24 
multistage (多 级 ) ，535 
wide area (WAN， 广 域 网 ) ，24 
Newton s iteration (牛顿 迭代 )，218 
Next state (下 一 状态 ) ， 
nonsequential ( 非 时 序 ) ，D-24 
sequential ( 时序) ，D-23 
Next-state function (下 一 状态 函数 ) ,463 ，B-67 
defined (定义 ) ，463 
implementing with sequencer (序列 发 生 器 的 实 
现 ) ，D-22-28 
Next- state outputs (下 一 状态 输出 )，D- 10，D- 
12-13 
example (示例 ), D-12-13 
implementation (实现 ) D-12 
logic equations (逻辑 方程 ) ，D-12-13 
truth tables ( 真 值 表 ) ，D-15 
No Redundancy (RAID 0) (无 元 余 ) ，0L5. 11-4 
No write allocation (没有 写 分 配 ) ，394 
Nonblocking assignment ( 非 阻塞 分 配 ) ，B-24 
Nonblocking caches ( 非 阻塞 高 速 缓 存 ) ，344 ，472 
Nonuniform memory access (NUMA ， 非 一 致 性 存储 
髓 访问 ) ，518 
Nonvolatile memory ( 非 易 失 性 存储 器 ) ，22 
Nops ( 空 操作 ) ，314 
nor (NOR) (或 ) 64 
NOR gates (或 门 ) ，B-8 
cross-coupled (交叉 耦合 ) ，B-50 
D latch implemented with (D 锁 存 实现 ) ，B-52 
NOR operation (或 操作 ) ,89 ，A-54，E-25 
NOT operation ( 非 操作 ) , 89，A-55，B-6 
Numbers ( 数 ) 
binary (二 进 制 ) ，73 
computer versus real- world (计算 机 与 现实 世 
界 ) 221 
decimal ( 十进制 ) ,73 ，76 
denormalized ( 非 规范 化 ) ，222 
hexadecimal (十 六 进 制 ) ，81-82 
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signed (有 符号 ), 73-78 
unsigned (无 符号 ), 73-78 


NVIDIA GeForce 8800, C-46-55 (NVIDIA GeForce 


8800 ) ， 

all-pairs N-body algorithm (对 N 体 的 所 有 算法 ) ， 
C-71 

dense linear algebra computations ( 稠密 线性 代数 
算法 ) ，C-51-53 

FFT performance (FFT 性 能 ) ，C-53 

instruction set (指令 集 ) ，C-49 

perfhrmianes (性 能 ), C-51 

rasterization (网 格 化 ) ，C-50 

ROP (ROP) C-50-51 

scalability (可 扩展 性 )，C-51 

sorting performance (排序 性 能 ) ，C-54-55 

special function approximation statistics ( 特殊 功能 
的 近似 统计 ) ，C-43 

special function unit ( SFU， 特 殊 功 能 单元 )， 
C-50 

streaming multiprocessor (SM， 流 式 多 处 理 器 ) ，C- 
48-49 

streaming processor ( 流 处 理 器 ) ，C-49-50 

streaming processor array (SPA， 流 处 理 器 阵列 ) ， 
C-46 

texture/processor cluster (TPC， 纹 理 / 处 理 器 集 
群 ) ，C-47-48 

NVIDIA GPU architecture (NVIDIA 图 形 处 理 单 元 

结构 ), 523-526 


NVIDIA GTX, 280, 548-553 
NVIDIA Tesla GPU, 548-553 


O 


Object files (目标 文件 ) ，125，A-4 
debugging information (调式 信息 ) ，124 
defined (定义 ) ，A-10 

format (格式 ) ，A-13-14 

header ( 头 部 ) ，125 ，A-13 

linking (链接 ) ，126-129 

relocation information ( 重 定位 信息 ) ，125 
static data segment (静态 数据 段 ) ，125 
symbol table (符号 表 ) ，125 ，126 

text segment (正文 段 ) ，125 
Object-oriented languages (面向 对 象 的 语言 ) ， 见 
Java brief history ( 简 史 )，012. 21-8 
defined (定义 ) ，145 ，0L2. 15-5 





One ' s complement ( 补 码 ) ，79，B-29 
Opcodes (操作 码 ) 
control line setting and (控制 线 的 设置 )，264 
defined (定义 )，82，262 
OpenGL (开放 图 形 语言 ), C-13 
OpenMP ( Open MultiProcessing， 开 放 多 处 理 
器 ) ，520540 
Operands (操作 数 ) ， 见 Instructions ，66-73 
32-bit immediate (32 位 立即 数 ) ，112-113 
adding (加 ) ，179 
arithmetic instructions (算术 运算 指令 ) ，66 
compiling assignment when in memory (编译 分 配 
存储 器 ) ，69 
constant (常量 ) ，72-73 
division (除法 ) ，189 
floating-point ( 浮 点 ) ，212 
memory (存储 器 ), 68-69 
MIPS (一 种 采用 精简 指令 集 的 处 理 器 架构 ) ，64 
multiplication ( 乘 )，183 
shifting ( 移 位 ) ，148 
Operating systems (操作 系统 ) 
brief history ( 简 史 ) ，0L5. 17-9-5. 17-12 
defined (定义 ) ，13 
encapsulation (封装 ) ，22 
in networking (在 网 络 中 ) ，0L6. 9-4-6. 9-5 
Operations (操作 ) ， 
atomicimplementing ( 原子 实现 ) ，121 
hardware (硬件 ) 63-66 
logical (逻辑 ) ，87-89 
x86 integer (x86 整数 ), 152，154-155 
Optimization (优化 )， 
class explanation (类 说 明 ) ，0L2. 15-14 
compiler (编译 器 ) ，141 
control implementation (控制 实现 ) ，D-27-28 
global (全 局 的 ) ，0L2. 15-5 
high-level (高 级 ) ，0L2. 15-4-2. 15-5 
local (局 部 的 ) ，0L2. 15-5，0L2. 15-8 
manual (手册 ) ，144 
or (或 ) ，64 
OR operation (或 操作 ) ，89 ，A-55 ，B-6 
ori (Or Immediate ， 或 立即 数 ) ，64 
Out-of-order execution ( 乱 序 执行 ) ， 
defined (定义 ) ，341 
performance complexity (性 能 复杂 性 ) ，416 
processors (处 理 器 ) ，344 
Output devices (输出 装置 )，16 
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Overflow (溢出 ) 
defined (和 定义 ) ，74，198 
detection (检测 ) ，180 
excevtions (异常 ) ，329 
floating-point ( 浮 点 ) ，198 
occurrence (事件 ) ，75 
saturation and (饱和 度 ) ，181 
subtraction (减法 ) ，179 


P 


P + Q redundancy (RAID 6，P +Q 宛 余 (RAID 
6)) ，015.11.7 
Packed floating- pointformat ( 浮 点 格式 ) ，224 
Page faults ( 缺 页 故障 ) ， 见 Virtual memory ，434 
for data access (数据 访问 ) ，450 
defined (定义 ) ，428 
handling (处 理 ) ，429 ，446-453 
virtual address _ causing (虚拟 地 址 导致 的 )， 
449, 450 
Page tables (页 表 ) ，456 
defined (定义 ) ，432 
ilustrated (举例 说 明 ) ，435 
indexing (索引 ) ，432 
inverted (倒置 ) ，436 
levels (级 ) ，436-437 
main memory ( 主 存储 器 ) ，437 
register (寄存 器 ) ，432 
storage reduction techniques (减少 存储 技术 ) ， 
436-437 
updating (更 新 ) ，432 
VMM (虚拟 机 )，452 
Pages (页 ) ， 见 Virtual memory 
defined (定义 ) ，428 
dirty( 脏 ) ，437 
finding (查找 ) ，432-434 
LRU (最 近 最 少 使 用 算法 ) ，434 
offset ( 偏 移 ) ，429 
physical number ( 物理 号 ) ，429 
placing (放置 ) ，432-434 
Size (尺寸 ) ，430 
virtual number ( 虚 号 ) ，429 
Parallel bus (并 行 总 线 ) ，0L6. 9-3 
Parallel execution (并 行 执行 )，121 
Parallel memory system (并 行 存储 系统 )， 见 
Graphics processing units (GPUs), C-36-41 


caches ( 高速 缓 存 ) ，C-38 
constant memory ( 常量 存储 器 ) ，C-40 
DRAM considerations (动态 随机 访问 存储 器 方面 
的 考虑 ) ，C-37-38 
则 obal memory (全 局 存储 器 ) ，C-39 
load/store access (装载 /存储 访问 ) ，C-41 
local memory (本 地 存储 器 ) ，C-40 
memory spaces (存储 空间 ) ，C-39 
MMU (存储 器 管理 单元 ) ，C-38-39 
ROP (ROP) ，C-41 
shared memory (共享 存储 器 ) ，C-39-40 
surfaces (表面 ) ，C-41 
texture memory (纹理 存储 器 ) ，C-40 
Parallel processing programs (并 行 处 理 器 程序 )， 
502-507 
creation difficulty (创造 难度 ) ，502-507 
defined (定义 )，501 
for message passing ( 消息 传递 )，519-520 
great debates in (主要 的 考虑 ) ，016. 15-5 
for shared address space (共享 地 址 空间 ) ，519-520 
use of (使 用 )，559 
Parallel reduction (并 行 的 降低 )，C-62 
Parallel scan (并 行 扫 描 )，C-60-63 
CUDA template (CUDA 模板 ) ，C-61 
inclusive (包容 性 ) ，C-60 
tree-based (基于 树 ) ，C-62 
Parallel software ( 并行 软 件 ) ，501 
Parallelism ( 并行 性 ) ，12，43 ，332-344 
and computers arithmetic ( 计算 机 算术 ) ，222-223 
data-level (数据 级 ) ，233，508 
debates (讨论 ) ，016. 15-5-6. 15-7 
GPUs and (图 形 处 理 单元 ) ，$23 ，C-76 
instruction-level (指令 级 ) ，43 ，332 ，343 
memory hierarchies and (存储 器 层次 )，466- 
470，0L5. 11-2 
multicore and (多 核 ) ，$17 
multiple issue (多 发 射 ) 332-339 
multithreading and (多 线程 )，517 
performance benefits (性 能 提升 )，44-45 
process-level (进程 级 ) ，500 
redundant arrays and inexpensive disks (廉价 磁盘 
元 余 阵 列 ) ，470 
subword ( 子 字 ) ，E-17 
task (任务 ) ，C-24 
task-level (任务 级 ) ，500 
thread (线程 )，C-22 
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Paravirtualization (部 分 虚拟 化 ) ，482 
PA-RISC (PA-RISC), E-14, E-17 
branch vectored (分 支 向 量 ) ，E-35 
conditional branches (条 件 分 支 ) ，E-34 ，E-35 
debug instructions (调式 指令 ) ，E-36 
decimal operations ( 十进制 运算 ) ，E-35 
extract and deposit (提取 和 存放 )，E-35 
instructions (指令 )，E-34-36 
load and clear instructions (加 载 并 清除 指令 )， 
E-36 
multiply/add and multiply/subtract (乘法 /加 法 和 
乘法 /除法 ) ，E-36 
nullification (无 效 ) ，E-34 
nullifying branch option (无 效 分 支 选 项 ) ，E-25 
store bytes short (存储 短 字 节 ) ，E-36 
synthesized multiply and divide (合成 的 乘法 和 除 
法 ) ，E-34-35 
Parity (奇偶 ) ，0L5. 11-5 
bits (位 ) ，421 
code ( 码 ) ，420，B-65 
PARSEC ( Princeton Application 
Shared Memory Computers ， 多 线程 应 程序 组 成 的 
测试 程序 集 ) ，540 
Pass transistor ( 导 通 晶体 管 ) ，B-63 
PCI- Express (PCle), 537, C-8, OL6.9-2 
PC- relative addressing (程序 计数 器 相对 寻 址 )， 
114, 116 
Peak floating- point performance ( 浮 点 性 能 峰值 ) ，542 
Pentium bug morality play (Pentium bug 闹剧 )， 
231-232 
Performance (性 能 ) ，28-36 
assessing (评估 )，28 
classic CPU equation (经 典 的 CPU 方程 ) ，36-40 
components (组 件 ) ，38 
CPU (图 形 处 理 单 元 ) ，33-35 
defining (定义 ) ，29-32 
equation using (方程 使 用 ) ，36 
improving (改善 ) 34-35 
instructions (指令 ) ，35-36 
measuring (测量 ) ，33-35，0L1. 12-10 
program (程序 ) ，39-40 
ratio (〈 比率 ) ，31 
relative (相对 的 ) ，31-32 
response time (响应 时 间 ) ，30-31 
sorting (排序 ) ，C-54-55 
throughput (吞吐 量 )，30-31 


Repository for 


time measurement (时 间 测 量 )，32 
Personal computers (PC， 个 人 计算 机 ) ，7 
defined (定义 )，5 
Personal mobile device (PMD ， 个 人 移动 设备 ) ， 
define (定义 ), 7 
Petabyte ( 千 万 亿 字 节 ), 6 
Physical addresses (物理 地 址 ) ，428 
mapping to (映射 )，428-429 
space (空间 ) ，$17 ，521 
Physically addressed caches (物理 地 址 高 速 缓存 ) ，443 
Pipeline registers (流水 线 寄存 器 ) ， 
before forwarding (转发 前 ) ，309 
dependence (相关 ) ，308 
forwarding unit selection (转发 单元 选择 ) ，312 
Pipeline stall (流水 线 阻 塞 ) ，280 
avoiding with code reordering (避免 代码 重 排序 ) ， 
280 
data hazards and (数据 冒险 ) ，313-316 
insertion (插入 )，315 
load-use ( 加载 使 用 ) ，318 
as solution to control hazards (作为 解决 方案 以 控 
制 冒 险 )，282 
Pipelined branches (流水 线 分 支 ) ，319 
Pipelined control (流水 线 控 制 )， 见 Control， 
300-303 
control lines (控制 线 ) ，300 ，303 
overview illustration (概述 说 明 ) ，316 
specifying (指定 ) ，300 
Pipelined datapaths (流水 线 数据 通路 ) ，286-303 
with connected control signals (连接 的 控制 信 
号 ) ，304 
with control signals (控制 信号 ) ，300-303 
corrected (纠正 ) ，296 
illustrated (举例 说 明 ) ，289 
in load instruction stages (加 载 指 令 阶 段 )，296 
Pipelined dependencies (流水 线 相 关 ) ，305 
Pipelines (流水 线 )， 
branch instruction impact (分 支 指令 的 影响 ) ，317 
effectiveness improving (有 效 性 改善 )，014. 16- 
4-4. 16-5 
execute and address calculation stage (执行 和 地 址 
计算 阶段 )，290，292 
five-stage (5 阶段 ) ，274，290 ，299 
graphic representation (图 示 ) ，279 ，296-300 
instruction decode and register file read stage ( 指 


令 译 码 和 读 寄 存 器 文件 阶段 ) ，289，292 
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instruction fetch stage ( 取 指 令 阶 段 )，290，292 

instruction sequence (指令 序列 ) ，313 

latency (延迟 ) ，286 

memory access stage (存储 器 访问 阶段 ) ，290 ，292 

multiple- clock- cycle diagrams (多 时 钟 周期 图 ) ， 
296-297 

performance bottlenecks (性 能 瓶颈 ) ，343 

single- clock- cycle diagrams ( 单 时 钟 周 期 图 )， 
296-297 

stages ( 阶段) ，274 

static two-issue (静态 双 发 射 ) ，335 

write-back stage ( 写 回 阶段 ) ，290 ，294 

Pipelining (流水 线 ) ，12，272-286 

advanced (先进 /高 级 ) ，343-344 

benefits (收益 ) ，272 

control hazards (控制 冒险 ) ，281-282 

data hazards (数据 冒险 ) ，278 

exceptions and (异常 ) ，327-332 

execution time and (执行 时 间 ) ，286 

fallacies ( 缪 误 ) ，355-356 

hazards (冒险 ) ，277-278 

instruction set design for (指令 集 设 计 ) ，277 

laundry analogy (以 洗衣 为 例 ) ，273 

overview (概述 ) ，272-286 

paradox ( 悖 论 ) ，273 

performance improvement ( 性 能 提高 ) ，277 

pitfall (陷阱 ) ，355-356 

simultaneous executing instructions ( 同时 执行 指 
令 ) ，286 

speed-up formula (高 速 化 公式 ) ，273 

structural hazards (结构 冒险 ) ，277 ，294 

summary ( 总结) ，285 

throughput and 〈 吞 吐 量 ) ，286 

pitfalls (陷阱 ) ， 见 Fallacies 

address space extension (地 址 空间 扩展 ) ，479 

arithmetic (算术 ) ，229-232 

associativity ( 相 联 度 ) ，479 

defined (定义 ) ，49 

GPUs (图 形 处 理 单元 ) ，C-74-75 

ignoring memory system behavior (忽略 存储 器 系 
统 行为 ) ，478 

memory hierarchies (存储 器 层次 ) ，478-482 

out- of- order processor evaluation ( 乱 序 处 理 器 评 
估 ) ，479 


performance equation subset (性 能 方程 子 集 )， 
50-51 


pipelining (流水 线 ) ，355-356 
pointer to automatic variables ( 指 癌 自动 变量 的 指 
针 ) ，160 
sequential word addresses ( 连续 的 字 地 址 ) ，160 
simulating cache (模拟 高 速 缓存 ) ，478 
software development with multiprocessors (多 处 理 
器 软件 发 展 ) ，556 
VMM implementation (虚拟 机 实现 ) ，481，481-482 
Pixel shader example (像素 着 色 器 阴影 部 分 示例 )， 
C-15-17 
Pixels (像素 ) ，18 
Pointers (指针 ) ， 
arrays versus (阵列 ) ，141-145 
frame ( 帧 ) ，103 
global (全 局 ) ，102 
incrementing (递增 ) ，143 
Java (Java) ，0L2. 15-26 
stack ( 栈 ) ，98 ，102 
Polling (表决 ) ，0L6. 9-8 
Pop 〈 弹 出 ) ，98 
Power (功率 )， 
clock rate and (时 钟 速率 ) ，40 
critical nature of (关键 特性 ) ，53 
efficiency (效率 ) ，343-344 
relative ( 相对 的 ) ，41 
PowerPC 
algebraic right shift (代数 右 移 ) ，E-33 
branch registers (分 支 寄存 器 ) ，E-32-33 
condition codes (条 件 码 )，E-12 
instructions (指令 ) ，E-12-13 
instructions unique to ( 独 有 的 指令 ) ，E-31-33 
load multiple/store multiple ( 加载/ 存储 多 个 )， 
E-33 
logical shifted immediate (立即 数 逻 辑 移 位 )， 
E-33 
rotate with mask (使 用 掩 码 移 位 )，E-33 
Precise interrupts (精准 中 断 ) ，332 
Prediction (预测 ) ，12 
2-bit scheme (2 位 方法 ) ，322 
accuracy (准确 的 ) ，321 ，324 
dynamic branch (动态 分 支 ) ，321-323 
loops and (循环 ) ，321-323 
steady-state ( 稳 态 ) ，321 
Prefetching ( 预 取 ) ，482 ，544 
Primitive types (基本 数据 类 型 ) ，0L2. 15-26 
Procedure calls ( 过程 调 用 )， 
convention (约定 )，A-22-33 
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examples (示例 ) ，A-27-33 
frame ( 帧 ) ，A-23 
preservation across (在 …… 期 间 保 持 不 变 ) ，102 
Procedures ( 过程) ，96-106 
compiling (编译 ) ，98 
compiling showing nested procedure linking (编译 
显示 肉 套 过 程 链接 ) ，101-102 
execution steps (执行 步骤 ) ，96 
frames ( 帧 ) ，103 
leaf (叶子 ) ，100 
nested ( 许 套 ) ，100-102 
recursive (递归 ) ，105 ，A-26-27 
for setting arrays to zero (设置 阵列 为 0) ，142 
sort (排序 ) ，135-139 
strepy (字符 串 复制 ) ，108-109 
string copy (字符 串 复 制 ) ，108-109 
swap (交换 ) ，133 
Process identifiers (进程 标识 符 ) ，446 
Process-level parallelism (进程 级 并 行 ) ，500 
Processors (处 理 器 ) ，242-356 
as cores (作为 核心 ) ，43 
control (控制 ) ，19 
datapath (数据 通路 ) ，19 
defined (定义 ) ，17，19 
dynamic multiple-issue (动态 多 发 射 ) ，333 
multiple-issue (多 发 射 ) ，333 
out-of-order execution ( 乱 序 执行 ) ，344 ，416 
performance growth (性 能 提高 ) ，44 
ROP (ROP), C-12, C-41 
speculation (推测 ) ，333-334 
static multiple-issue (静态 多 发 射 ) ，333 ，334-339 
streaming ( 流 )，C-34 
superscalar (超标 量 )，339, 515-516,，O14. 16-5 
technologies for building (生成 技术 ) ，24-28 
two-issue ( 双 发 射 ) ，336-337 
vector (矢量 )，508-510 
VLIW ( 超 长 指令 字 ) ，335 
Product (乘积 ) ，183 
Product of sums ( 和 的 乘积 ) ，B-11 
Program counters (PC， 程 序 计 数 器 ) ，251 


changing with conditional branch (条 件 分 支 转 


换 ) ，324 
defined (定义 ) ，98，251 
exception (异常 ) ，445 ，447 
incrementing (递增 ) ，251 ，253 
instruction updates (指令 更 新 ) ，289 
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Program libraries (程序 库 ) ，A-4 
Program performance (程序 性 能 ) ， 
elements affecting (元 素 影 响 ) ，39 
understanding (理解 ) ，9 
Programmable array logic (PAL， 可 编程 阵列 逻辑 ) ， 
B-78 
Programmable logic array (PLA， 可 编程 逻辑 阵列 ) ， 
component dots illustration (组 成 点 说 明 ) ，B-16 
control function implementation (控制 功能 实现 )， 
D-7, D-20-21 
defined (定义 )，B-12 
example (示例 ) ，B-13-14 
illustrated (描述 ) ，B-13 
ROMs and (只 读 存 储 器 ) ，B-15-16 
size (尺寸 ) ，D-20 
truth table implementation ( 真 值 表 实现 ) ，B-13 
Programmable logic device (PLD， 可 编程 逻辑 器 件 ) ， 
B-78 
Programmable ROM (PROM， 可 编程 ROM) ，B-14 
Programming languages (编程 语言 )， 见 specific lan- 
guages 
brief history of ( 简 史 ) ，0L2. 21-7-2. 21-8 
object-oriented (面向 对 象 的 ) ，145 
variables (变量 ) ，67 
Programs (程序 ) ， 
assembly language (汇编 语言 ) ，123 
Java starting (Java 开始 ) ，131-132 
parallel processing (并 行 处 理 ) ，502-507 
starting (开始 ) ，123-132 
translating ( 翻译 ) ，123-132 
Propagate (传播 ) ， 
defined (定义 ) ，B-40 
example (示例 ) ，B-44 
super (超级 ) ，B-41 
Protected keywords ( 受 保护 的 关键 字 ) ，0L2. 15-21 
Protection (保护 ) 
defined (定义 ) ，428 
implementing (实现 ) ，444-446 
mechanisms (机 制 ) ，0L5. 17-9 
VMs for (虚拟 机 ) ，424 
Protection group (保护 组 ) ，0L5. 11-5 
Pseudo MIPS ( 伪 MIPS ) ， 
defined (定义 ) ，233 
instruction set (指令 集 ) ，235 
Pseudodirect addressing ( 伪 直 接 寻 址 ) ，116 
Pseudoinstructions ( 伪 指 令 )， 
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defined (定义 ) ，124 

summary ( 总结) ，125 
Pthreads (POSIX thread ， 线 程 的 一 个 标准 ) ，540 
PTX instructions (PTX 指令 ) ，C-31，C-32 
Public keywords (公共 关键 字 ) ，0L2. 15-21 
Push 〈 压 栈 ) 

defined (定义 ) ，98 

using (使 用 ) ，100 


Q 


Quad word (四 字 ) ，154 
Quicksort (快速 排序 ) ，411，412 
Quotient ( 商 )，189 


Race (竞争 ) ，B-73 
Radix sort (基数 排序 ) ，411 ，412 ，C-63-65 
CUDA code (CUDA 代码 ) ，C-64 
implementation (实现 ) ，C-63-65 
RAID， 见 Redundant arrays of inexpensive disks 
(RAID) 
RAM (随机 访问 存储 器 ) ，9 
Raster operation (ROP) processors (光栅 操作 处 理 
器 ) ，C-12，C-41，C-50-51 
fixed function (国定 功能 ) ，C-41 
Raster refresh buffer (光栅 刷新 缓冲 区 ) ，18 
Rasterization (光栅 化 ) ，C-50 
Ray casting (RC) (光线 投射 (RC) ) ，552 
Read- only memories (ROM， 只 读 存 储 器 ) ，B-14- 16 
control entries (控制 项 ) ，D-16-17 
control function encoding (控制 功能 编码 ) ，D- 
18-19 
dispatch (分 派 ) ，D-25 
implementation ( 实现) ，D-15-19 
logic function encoding (人 逻辑 函数 编码 ) ，B-15 
overhead (开销 )，D-18 
PLAs and ( 可 编程 逻辑 阵列 PLA) ，B-15-16 
programmable (PROM ,可 编程 ROM) ，B-14 
total size (总 容量 ) ，D-16 
Read- stall cycles ( 读 停 顿 周期 ) ，399 
Read- write head ( 读 写 头 ) ，381 
Receive message routine (接收 消息 例 程 )，529 
Receiver Control register (接收 控制 寄存 器 ) ，A-39 


Receiver Data register (接收 数据 寄存 器 ) ，A-38， 
A-39 


Recursive procedures (递归 过 程 ) ， 见 Procedures， 
105 ，A-26-27. 
clone invocation (克隆 调用 ) ，100 
stack in (堆栈 中 ) ，A-29-30 
Reduced instruction set computer (RISC) 
architecture (精简 指令 集 计算 机 体系 结构 )， 见 
Desktop and, E-2-45, O12.21-5, O14. 16-4. 
server RISCs; Embedded RISCs group types (组 
类 型 ) ，E-3-4 
instruction set lineage (指令 集 族 系 ) ，E-44 
Reduction (减少 ) ，519 
Redundant arrays of inexpensive disks 
(RAID) (廉价 元 余 磁 盘 阵列 ) ，0L5. 11- 2- 
5.11-8 
history ( 简 史 ) ，0L5. 11-8 
RAID 0，0L5. 11-4 
RAID 1，0L5. 11-5 
RAID 2, OLS. 11-5 
RAID 3, OLS. 11-5 
RAID 4, OLS. 11-5-5. 11-6 
RAID 5, OLS. 11-6-5. 11-7 
RAID 6, OLS. 11-7 
spread of (传播 ) ，0L5. 11-6 
summary (总 结 )，0L5. 11-7-5. 11-8 
use statistics (使 用 统计 ) ，0L5. 11-7 
Reference bit (参考 位 ) ，435 
References (参考 文献 )， 
absolute (完全 的 )，126 
forward (转发 / 旁 路 ) ，A-11 
types (类 型 ) ，0L2. 15-26 
unresolved (未 决 的 ) ，A-4，A-18 
Register addressing (寄存 器 地 址 ) ，116 
Register allocation (寄存 器 分 配 )，0L2.15- 11- 
2. 15-13 
Register files (寄存 器 文件 )，B-50，B-54-56 
defined (定义 ) ，252，B-50，B-54 
in behavioral Verilog (Verilog 行为 ) ，B-57 
single (单个 ) ，257 
two read ports implementation ( 两 个 读 端口 的 实 
现 ) ，B-55 
with two read ports/one write port (两 个 读 端口 / 
一 个 写 端 口 ) ，B-55 
write port implementation ( 写 端口 实现 ) ，B-56 
Register-memory architecture (寄存 器 -存储 架构 ) ， 
0L2. 21-3 
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Registers (寄存 器 ) ，152，153-154 

architectural (结构 )，325-332 

base (基于 ) ，69 

callee-saved (被 调用 方 保存 ) ，A-23 

caller- saved (调用 者 保存 ) ，A-23 

Cause (导致 ) ，A-35 

clock cycle time and (时 钟 周期 时 间 ) ，67 

compiling C assignment with (C 编译 赋值 )， 
67-68 

Count (计数 ) ，A-34 

defined (定义 ) ，66 

destination ( 目的 ) ，83 ，262 

floating-point ( 浮 点 ) ，217 

left half ( 左 半 边 ) ，290 

mapping (映射 ) ，80 

MIPS conventions (MIPS 约定 ) ，105 

number specification (指定 号 码 ) ，252 


Response time (响应 时 间 ) ，30-31 
Restartable instructions (重启 指令 ) ，448 
Return address (返回 地 址 ) ，97 
Return from exception (ERET， 从 异常 中 返回 ) ，445 
R-format (R 格式 ) ，262 
ALU operations (ALU 操作 ) ，253 
defined (定义 ) ，83 
Ripple carry ( 行 波 进位 ) ， 
adder (加 法 器 ) ，B-29 
carry lookahead speed versus (先行 进位 速度 )， 
B-46 
Roofline model (顶层 模型 ) ，$42-5$43 ，544 ，545 
with ceilings (天 花 板 ) ，5$46 ，547 
computational roofline (可 计算 的 屋顶 轮廓 线 ) ，545 
illustrated (举例 说 明 ) ，542 
Opteron generations 〈 些 龙 处 理 器 时 代 ) ，543 ，544 


with overlapping areas shaded (阴影 部 分 的 重 释 


plpeline (流水 线 ) ，308，309，312 peak floating-point performance (峰值 浮 点 性 能 ) ， 
Primitives ( 基 元 ) ，66 542 


Receiver Control (接收 控制 ) ，A-39 peak memory performance (峰值 存储 性 能 ) ，543 
Receiver Data (接收 数据 ) ，A-38 ，A-39 with two kernels (两 个 内 核 ) ，547 
renaming ( 重 命名 ) ，338 Rotational delay (旋转 延迟 ) ， 见 Rotational latency 
right half ( 右 半 边 ) ，290 Rotational latency (旋转 延迟 ) ，383 


illing (3 1 
Rounding (伟人 ) ，218 
tatus NA), A accurate ( 精确 ) ，218 


才 ) ，67，99 
temporary (暂时 ) ， bits (位 ) ，220 


Transmitter Control (发 送 控 制 ) ，A-39-40 a 
Transmitter Data ( 发 送 数 据 ) ，A-40 with guard digits 〈 带 保护 位 的 数字 ) ，219 
. IEEE 754 modes (IEEE754 格式 ) ，219 
usage convention (使 用 约定 ) ，A-24 . 和 
use convention (使 用 约定 ) ，A-22 Row- major order( 行 优先 顺序 排列 ) ，217，413 
variables (变量 ) oy | R-type instructions (R 型 指令 ) ，252 
datapath for (数据 通路 ) ，264-265 


Relative performance (相对 性 能 ) ，31-32 
Relative power (相对 功率 ) ，41 datapath in operation for (数据 通路 操作 ) ，266 


Reliability (可 靠 性 ) ，418 S 
Relocation information ( 重 定位 信息 ) ，A-13 ，A-14 
Remainder (余数 ) ， 
defined (定义 ) ，189 
instructions ( 指令) ，A-55 
Reorder buffers ( 重 排序 缓冲 器 ) ，343 
Replication (复制 ) ，468 
Requested word first (请 求 字 优先 ) ，392 
Request-level parallelism (请 求 级 并 行 ) ，532 
Reservation stations (保留 站 )， 
buffering operands in (缓冲 操作 数 ) ，340-341 
defined (定义 )，339-340 


Saturation (饱和 ) ，181 
sb (Store Byte， 存 储 字 节 ) ，64 
sc (Store Conditional， 存 储 条 件 ) ，64 
SCALAPAK (SCALAPAK), 230 
Scaling (规模 ) ， 
strong ( 强 缩放 ) ，505 ，507 
weak ( 弱 缩放 ) ，505 
Scientific notation 〈 科学 计数 法 ) ， 
adding numbers in (加 入 数字 ) ，203 
defined (定义 ) ，196 
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for reals (对 实数 ) ，197 
Search engines (搜索 引擎 ) ，4 
Secondary memory (辅助 存储 器 ) ，23 
Sectors (局 区 ) ，381 
Seek (寻找 ) ，382 
Segmentation (分 段 ) ，431 
Selector values (选择 符 值 ) ，B-10 
Semiconductors (半导体 ) ，25 
Send message routine ( 发 送 消息 例 程 ) ，529 
Sensitivity list ( 敏感 值 列表 ) ，B-24 
Sequencers (序列 发 生 器 ) ， 
explicit ( 显 式 ) ，D-32 
implementing next- state function with (实现 下 一 
个 状态 的 函数 ) ，D-22-28 
Sequential logic ( 时序 逻 辑 ) ，B-5 
Servers (服务 器 ) ， 见 Desktop and server RISC，OL5S 
cost and capability (花费 和 能 力 ) ，5 
Service accomplishment (服务 完成 ) ，418 
Service interruption (服务 中 断 ) ，418 
Set instructions (设置 指令 ) ，93 
Set- associative caches (组 相连 高 速 缓存 )， 见 
Caches, 403 
address portions (高 速 缓存 地 址 部 分 ) ，407 
block replacement strategies 〈 块 替换 策略 ) ，457 
choice of (选择 ) ，456 
four-way (四 路 ) ，404 ，407 
memory-block location (存储 器 块 位 置 ) ，403 
misses ( 缺失) ，405-406 
n-way (nn 路 )，403 
two-way (2 路 ) ，404 
Setup time (建立 时 间 ) ，B-53 ，B-54 
sh (Store Halfword， 存 储 半 字 ) ，64 
Shaders (着 色 器 ) 
defined (定义 ) ，C-14 
floating- point arithmetic ( 浮 点 算术 ) ，C-14 
graphics ( 图像 )，C-14-15 
pixel example (像素 示例 ) ，C-15-17 
Shading languages ( 图形 编 程 语言 ) ，C-14 
Shadowing (阴影 ) ，0L5. 11-5 
Shared memory (共享 存储 器 ) ， 见 Memory 
as low-latency memory (作为 低 延 迟 存储 ) ，C-21 
caching in (缓存 中 ) ，C-58-60 
CUDA (CUDA), C-58 
N-body and (N 体 )，C-67-68 
per-CTA (Per-CTA), C-39 
SRAM banks (SRAM 体 ) ，C-40 

















Shared memory multiprocessors (SMP， 共 享 主 存 多 
处 理 器 ) ，517-521 
defined (定义 ) ，S$01，517 
single physical address space (单一 物理 地 址 空 
间 ) ，517 
synchronization (同步 ) ，518 
Shift amount ( 移动 数量 ) ，82 
Shift instructions ( 移 位 指令 ) ，87，A-55-56 
Sign and magnitude (符号 和 大 小 ) ，197 
Sign bit (符号 位 )，76 
Sign extension (符号 扩展 )，254 
defined (定义 ), 76 
shortcut (简便 方法 ) ，78 
Signals (信号 )， 
asserted (有 效 ) ，250，B-4 
control (控制 ) ，250 ，263-264 
deasserted (无 效 )，250，B-4 
Signed division (有 符号 数 除法 ) ，192-194 
Signed multiplication (有 符号 数 乘 法 ) ，187 
Signed numbers (有 符号 的 数字 ) ，73-78 
sign and magnitude (符号 和 大 小 ) ，75 
treating as unsigned (作为 无 符号 数 处 理 )， 
94-95 
Significands (有 效 数 ) ，198 
addition (另外 的 额外 的 )，203 
multiplication ( 乘 ) ，206 
Silicon ( 硅 ) ，25 
as key hardware technology (作为 关键 技术 硬件 ) ，53 
crystal ingot ( 蝇 锭 )，26 
defined (定义 ) ，26 
wafers ( 唱 圆 ) ，26 
Silicon crystal ingot ( 硅 品 锭 )，26 
SIMD (Single Instruction Multiple Data， 单 指令 多 
数据 ) ，507-508 ，558 
computers (计算 机 ) ，0L6. 15-2-6. 15-4 
data vector (数据 向 量 ) ，C-35 
extensions (扩展 ) ，0L6. 15-4 
for loops and (for 循环 ) ，0L6. 15-3 
massively parallel multiprocessors ( 大 规模 并 行 处 
理 器 ) ，0L6. 15-2 
small-scale (小 规模 ) ，0L6. 15-4 
vector architecture (向量 结构 )，508-510 
in x86，508 (在 x86 中 ) 
SIMMs (single inline memory modules， 单列 直 插 式 
存储 器 模块 ) ，0L5. 17-5，0L5. 17-6 
Simple programmable logic devices (SPLD， 简 单 的 


可 编程 逻辑 器 件 ) ，B-78 
Simplicity (简化 )，161 
Simultaneous multithreading (SMT， 同 时 多 线程 ) ， 
515-517 
support (支持 ) ，515 
thread-level parallelism (线程 级 并 行 ) ，517 
unused issue slots (未 使 用 的 发 射 模 )，515 
Single error correcting/ Double error correcting (SEC/ 
DEC， 纠正 单位 /两 位 错误 ) ，420-422 
Single instruction single data (SISD， 单 指令 单数 
据 ) ，507 
Single precision ( 单 精度 )， 见 Double precision 
binary representation ( 二进制 表示 ) ，201 
defined (定义 )，198 
Single- clock-cycle pipeline diagrams ( 单 时 钟 周期 流 
水 图 ) ，296-297 
ilustrated (说 明 )，299 
Single- cycle datapaths 〈 单 周期 数据 通路 ) ， 见 Dat- 
apaths 
ilustrated (描述 ) ，287 
instruction execution (指令 执行 ) ，288 
Single- cycle implementation control function for ( 单 
周期 执行 控制 功能 ) ，269 
defined (定义 ) ，270 
nonpipelined execution versus pipelined execution 
( 非 流水 执行 和 流水 执行 ) ，276 
non-use of (未 使 用 ) ，271-272 
penalty (代价 ) ，271-272 
pipelined performance versus (流水 线性 能 ) ，274 
Single-instruction multiple-thread (SIMT， 单 指令 多 
线程 ) ，C-27-30 
overhead (开销 ) ，C-35 
multithreaded warp scheduling (多 warp 调度 ) ， 
C-28 
processor architecture (处 理 器 架构 ) ，C-28 
warp execution and divergence (warp 执行 和 分 
支 ) ，C-29-30 
Single- program multiple data (SPMD ， 单 程序 多 数 
据 ) ，C-22 
sll (Shift Left Logical， 逻 辑 左 移 ) ，64 
slt (Set Less Than ， 小 于 则 置 位 ) ，64 
slti (Set Less Than Imm. ， 小 于 立即 数 置 位 ) ，64 
sltiu (Set Less Than Imm. Unsigned， 小 于 无 符号 立 
即 数 则 置 位 ) ，64 
sltu (SetLess Than Unsig. ， 无 符号 数 操 作 ， 小 于 则 
置 位 ) ，64 
Smalltalk-80 (Smalltalk-80) ，0L2. 21-8 
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Smart phones (智能 手机 ) ，7 
Snooping protocol (监听 协议 ) ，468-470 
Snoopy cache coherence (基于 监听 的 高 速 缓存 一 致 
性 ) ，0L5. 12-7 
Software optimization ( 软件 优化 ) 
via blocking (通过 阻塞 ) ，413-418 
Sort algorithms (排序 算法 ) ，141 
Software (软件 ) 
layers ( 层 ) ，13 
multiprocessor (多 处 理 器 ) ，500 
parallel (并 行 ) ，501 
as service (服务 ) ，7，532 ，558 
systerms (系统 ) ，13 
Sort procedure (排序 过 程 ) ， 见 Procedures ，135-139 
code for body (整体 的 代码 ) ，135-137 
full procedure (全 过 程 )，138-139 
passing parameters in (传递 参数 ) ，138 
preserving registers in (保持 寄存 器 不 变 ) ，138 
procedure call (过 程 调用 ) ，137 
register allocation for (寄存 器 分 配 ) ，135 
Sorting performance (排序 性 能 ) ，C-54-55 
Source files ( 源 文件 ) ，A-4 
Source language ( 源 语言 ) ，A-6 
Space allocation (空间 分 配 ) 
on heap( 堆 上 的 空间 分 配 ) ，104-106 
on stack (堆栈 中 )，103 
SPARC (可 扩充 处 理 器 架构 ) 
annulling branch (取消 分 支 ) ，E-23 
CASA, E-31 
conditional branches (条 件 分 支 ) ，E10- 12 
fast traps (快速 陷阱 )，E-30 
floating- point operations ( 浮 点 操作 ) ，E-31 
Instructions (指令 ) ，E-29-32 
least significant bits (最 低位 )，E-31 
multiple precision floating- point results (多 精度 浮 
点 结果 ) ，E-32 
nonfaulting loads (无 故障 的 装载 ) ，E-32 
overlapping integer operations ( 重 公 的 整数 操 
作 )，E-31 
quadruple precision floating- point arithmetic ( 四 倍 
精度 浮 点 算术 ) ，E-32 
register windows (寄存 器 窗口 ) ，E-29-30 
support for LISP and Smalltalk (支持 LISP 和 
Smalltalk) ，E-30 
Sparse matrices ( 稀 朴 矩阵 ) ，C-55-58 
Sparse Matrix- Vector multiply (SpMYV, 稀 朴 矩阵 向 
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量 乘法 )，C-55. C-57. C-58 
CUDAversion (CUDA 版 本 )，C-57 
serial code ( 串 行 代码 ) ，C-57 
shared memory version (共享 存储 器 版 本 ) ，C-59 
Spatial locality (空间 局 部 性 ) ，374 
large block exploitation of (大 块 区 的 开发 ) ，391 
tendency (趋势 )，378 
SPEC, OL1.1.12-11-1.12-12 
CPU benchmark (CPU 基准 测试 程序 ) ，46-48 
power benchmark (功率 基准 测试 程序 )，48-49 
SPEC2000，0L1. 12-12 
SPEC2006, 233. OL1. 12-12 
SPEC89, OL1. 12-11 
SPEC92, OL1. 12-12 
SPEC95, OL1. 12-12 
SPECrate (SPEC 分 值 ) ，538-539 
SPECratio (SPEC 比率 ) ，47 
Special function units (SFU， 特 殊 功 能 单元 ) ，C-35， 
C-50 
defined (定义 )，C-43 
Speculation (推测 ) ，333-334 
hardware- based (基于 硬件 的 ) ，341 
implementation (实现 ) ，334 
performance and (性 能 ) ，334 
problems (问题 )，334 
recovery mechanism (恢复 机 制 ) ，334 
Speed-up challenge (提高 速度 的 挑战 ) ，503-505 
balancing load (负载 均衡 ) ，$05-506 
bigger problem (更 大 的 问题 ) ，504-505 
Spilling registers (溢出 寄存 器 ) ，71，98 
SPIM (SPIM), A-40-45 
byte order ( 字 节 顺序 ) ，A-43 
features (特征 ) ，A-42-43 
getting started with (从 .……: 开始 ) ，A-42 
MIPS assembler directives support ( MIPS 汇编 指 
令 的 支持 ) ，A-47-49 
speed (速度 ) ，A-41 
system calls (系统 调用 ) ，A-43-45 
versions ( 版 本 ) ，A-42 
virtual machine simulation (虚拟 机 模拟 ) ，A-41 - 
42 
Split algorithm (分 割 算法 )，552 
Split caches ( 拆 分 缓存 ) ，397 
Squareroot instructions (平方 根 指令 ) ，A-79 
sra (Shift Right Arith ， 算 术 右 移 ) ，A-56 
srl (Shift Right Logical， 逻 辑 右 移 ) ，64 


Stack architectures (堆栈 架构 )，012. 21-4 
Stack pointers (堆栈 指针 ) 
adjustment (调整 )，100 
defined (定义 )，98 
values ( 值 ) ，100 
Stack segment (堆栈 段 ) ，A-22 
Stacks (堆栈 ) 
allocating space on (分 配 栈 空间 ) ，103 
forarguments (参数 ) ，140 
defined (定义 ) ，98 
pop (弹出 ) ，98 
push ( 压 人 ) ，98 ，100 
recursive procedures (递归 过 程 ) ，A-29-30 
Stalls (暂停 ) ，280 
as solution to control hazard (作为 解决 方案 以 控 
制 冒 险 ) ，282 
avoiding with code reordering (避免 代码 重 排 序 ) ， 
280 
behavioral Verilog with detection ( Verilog 行为 检 
测 ) ，0OL4. 13-6-4. 13-8 
data hazards and (数据 冒险 ) ，313-316 
illustrations. (举例 说 明 ) ，0L4. 13-23.OL4. 13-30 
insertion into pipeline ( 插 人 流水 线 ) ，315 
load-use (装载 使 用 ) ，318 
memory (存储 器 ) ，400 
write- back scheme ( 回 写 方案 ) ，399 
write buffer ( 写 缓冲 区 ) ，399 
Standby spares (待机 备用 ) ，0L5. 11-8 
State (状态 ) 
in 2-bit prediction scheme (在 2 比特 预测 方案 中 
的 状态 ) ，322 
assignment (分 配 ) ，B-70，D-27 
bits (比特 ) ，D-8 
exception saving/restoring (异常 保存 /恢复 ) ，450 
logic components (逻辑 部 件 ) ，249 
specification of (规范 ) ，432 
State elements (状态 元 素 ) 
clock and (时 钟 ) ，250 
combinational logic and (组 合 逻 辑 与 ) ，250 
defined (定义 ) ，248 ，B-48 
inputs (输入 ) ，249 
in storing/accessing instructions (存储 /访问 指 
令 ), 252 
register file (寄存 器 文件 ) ，B-50 
Static branch prediction (静态 分 支 预测 ) ，335 
Static data (静态 数据 ) 
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as dynamic data (动态 数据 ) ，A-21 
defined (定义 ) ，A-20 
segment ( 段 ) ，104 
Static multiple- issue processors (静态 多 发 射 处 理 
器 ) ， 见 Multiple issue，333 ，334-339 
control hazards and (控制 冒险 )，335-336 
instruction sets (指令 集 ) ，335 
with MIPS ISA (MIPS 指令 集体 系 结构 ) ，335-338 
Static random access memories 《SRAM， 静 态 随 机 
访问 存储 器 ) ，378，379，B-58-62 
array organization ( 阵列 组 织 ) ，B-62 
basic structure (基本 结构 )，B-61 
defined (定义 ), 21, B-58 
fixed access time ( 固定 访问 时 间 )，B-58 
large (大 ) ，B-59 
read/write initiation ( 读 / 写 启动 )，B-59 
synchronous (SSRAM， 同 步 ) ，B-60 
three-state buffers (三 态 缓冲 器 ) ，B-59，B-60 
Static variables (静态 变量 ) ，102 
Status register (状态 寄存 器 ) ， 
fields (状态 寄存 器 字段 ) ，A-34，A-35 
Steady-state prediction ( 稳 态 预测 ) ，321 
Sticky bits ( 粘 结 位 ) ，220 
Store buffers (存储 缓冲 区 ) ，343 
Store instructions (存储 指令 )， 见 Load instructions 
access (访问 ) ，C-41 
base register ( 基 址 寄存 器 ) ，262 
block ( 块 ) ，149 
compiling with (用 ……: 进行 编译 ) ，71 
conditional (有 条 件 的 ) ，122 
defined (定义 ), 71 
details (细节 ) ，A-68-70 
EX stage (执行 阶段 ) ，294 
floating- point ( 浮 点 ) ，A-79 
ID stage ( 译 码 阶段 ) ，291 
IF stage ( 取 指 阶段 ) ，291 
instruction dependency (指令 相关 ) ，312 
list of (列表 ) ，A-68-70 
MEM stage ( 访 存 阶段 ) ，295 
unit for implementing (实现 单元 ) ，255 
WB stage ( 写 回 阶段 ) ，295 
Store word (存储 字 ) ，71 
Stored program concept (存储 程序 概念 )，63 
as computer principle (计算 机 原理 ) ，86 
illustrated (举例 说 明 ) ，86 
principles (原理 )，161 


Strcpy procedure (字符 串 复制 过 程 )， 见 Proce- 
dures，108-109 
as leaf procedure (作为 叶子 程序 ) ，109 
pointers (指针 ) ，109 
Stream benchmark ( 流 基准 测试 程序 ) ，548 
streamlng multiprocessor (SM， 流 多 处 理 器 )，C- 
48-49 
Streaming processors array (SPA， 流 处 理 器 阵列 ) ， 
C-34，C-49-50 
Streaming SIMD Extension 2 (SSE2 ， 单 指令 多 数据 
流 扩 展 ) ，C-41，C-46 
floating- point architecture ( 浮 点 结构 ) ，224 
Streaming SIMD Extensions (SSE) and advanced vec- 
tor extensions in x86 ( 单 指 令 多 数据 流 扩 展 和 
x86 中 的 高 级 向 量 扩展 ) ，224-225 
Stretch computer ( 可 伸缩 计算 机 ) ，01L4. 16-2 
Strings (字符 串 )， 
defined (定义 ) ，107 
in java (在 Java 中 ) ，109-111 
representation (表述 ) ，107 
Strip mining (露天 开采 ) ，510 
Striping (条 状 化 ) ，0L5. 11-4 
Strong scaling ( 强 缩放 比例 ) ，$05 ，517 
Structural hazards (结构 冒险 ) ，277 ，294 
sub (Subtract， 减 法 ) ，64 
sub. d (FP Subtract Double， 双 精度 浮 点 减法 ) ，A- 79 
sub. s (FP Subtract Single， 单 精度 浮 点 减法 )， 
A-80 
Subnormals ( 低 于 正常 的 ) ，222 
Subtraction (减法 )， 见 Arithmetic，178-182 
binary (二 进 制 ) ，178-179 
floating- point (浮上 点 ) ，211，A-79-80 
instructions (指令 ) ，A-56-57 
negative number ( 负数) ，179 
overflow (溢出 ) ，179 
subu (Subtract Unsigned， 无 符号 减法 ) ，119 
Subword parallelism ( 子 字 并 行 ) ，222- 223，352， 
E-17 
and matrix multiply (和 矩阵 乘法 ) ，225-228 
Sum of products (乘积 和 ) ，B-11，B-12 
Supercomputers (超级 计算 机 ) ，0L4. 16-3 
defined (定义 ), 5 
SuperH (SuperH), E-15, E-39-40 
Superscalars (超标 量 ) ， 
defined (定义 ) ，339，0L4. 16-5 
dynamic pipeline scheduling (动态 流水 线 调 
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度 ) ，339 
multithreading options ( 多 线程 选项 ) ，516 
Surfaces (表面 ) ，C-41 
sw (StoreWord ， 存 储 字 ) ，64 
Swap procedure (交换 过 程 ) ， 见 Procedures，133 
body code 〈 程 序 体 代 码 ) ，135 
full ( 满 ) ，135，138-139 
register allocation (寄存 器 分 配 ) ，133 
Swap space (交换 空间 ) ，434 
swcl (Store FP Single， 存 储 单 精度 一 的 浮 点 数 )， 
A-73 
Symbol tables (符号 表 ) ，125，A-12 ，A-13 
Synchronization ( 同步) ，121-123 ，552 
barrier (障碍 ) ，C-18 ，C-20，C-34 
defined (定义 ) 518 
lock ( 锁 )，121 
overhead reducing (开销 减少 ) ，44-45 
unlock (未 死 锁 ) ，121 
Synchronizers (同步 器 ) 
defined (定义 ) ，B-76 
failure (失败 ) ，B-77 
from D flip-flop (D 触发 器 ) ，B-76 
Synchronous DRAM (SRAM， 同 步 DRAM ) ，379- 
380 ，B-60 ，B-65 
Synchronous SRAM (SSRAM， 同 步 SRAM) ，B-60 
Synchronous system (同步 系统 ) ，B-48 
Syntax tree (语法 树 ) ，0L2. 15-3 
System calls (系统 调用 ) ，A-43-45 
code (代码 ) ，A-43-44 
defined (定义 ) ，445 
loading (加 载 ) ，A-43 
Systems software ( 系统 软件 ) ，13 
System Verilog (一 种 建 模 语言 ) 
cache controller (〈 cache 控制 器 ) ，0L5. 12-2 
cache data and tag modules (缓存 数据 和 标签 模 
块 ) ，0L5. 12-6 
FSM (有 限 状 态 机 ) ，0L5. 12-7 
simple cache block diagram (简单 的 高 速 缓存 框 
图 ) ，0L5. 12-4 
type declarations (类 型 声明 ) ，0L5. 12-2 


T 


Tablets ( 表 ) ,7 
Tags (标志 ) 
defined (定义 )，384 


in locating block (本 地 块 ) ，407 
page tables and ( 页 表 ) ，434 
size of (尺寸 ) ，409 
Tail call ( 尾 调用 )，105-106 
Task identifiers (任务 标识 符 ) ，446 
Task parallelism (任务 并 行 ) ，C-24 
Task-level parallelism (任务 级 并 行 ) ，500 
Tebibyte (TiB ， 太 字 节 ) ，5 
Telsa PTX ISA (Telsa PTX 指令 集体 系 结构 )，C- 
31-34 
arithmetic instructions (算术 运算 指令 )，C-33 
barrier synchronization ( 障碍 同步 ) ，C-34 
GPU thread instructions ( GPU 线程 指令 ) ，C-32 
memory access instructions (存储 器 访问 指令 ) ， 
C-33-34 
Temporal locality (时 间 局 部 性 ) ，374 
tendency (趋势 ) ，378 
Temporary registers (临时 寄存 器 ) ，67，99 
Terabyte (TB ， 太 字 节 ) 6 
defined (定义 ), 5 
Text segment (文本 段 ) ，A-13 
Texture memory (纹理 存储 器 ) ，C-40 
Texture/processor cluster (TPC， 纹 理 / 处 理 器 簇 )， 
C-47-48 
TFLOPS multiprocessor (万 亿 次 每 秒 多 处 理 器 )， 
0L6. 15-6 
Thrashing ( 系统 颠 复 ) ，453 
Thread blocks (线程 块 )，528 
creation (创建 )，C-23 
defined (定义 ) ，C-19 
managing (管理 ) ，C-30 
memory sharing (存储 器 共享 )，C-20 
synchronization ( 同步)，C-20 
Thread parallelism (线程 并 行 )，C-22 
Treads (线程 ) 
creation (创建 )，C-23 
CUDA (CUDA), C-36 
ISA (指令 集体 系 结构 )，C-31-34 
managing (管理 ) ，C-30 
memory latencies and (存储 器 延迟 ) ，C-74-75 
multiple per body (多 重 每 个 体 ) ，C-68-69 
warps (warps), C-27 
Three Cs model (3C 模式 ) ，459-461 
Three- state buffers (三 态 缓冲 寄存 器 ) ，B- 59， 
B-60 
Throughput (吞吐 量 ) 





defined (定义 ) ，30-31 
multiple issue and (多 发 射 ) ，342 
pipelining and (流水 线 ) ，286 ，342 
Thumb (重点 ) ，E-15，E-38 
Timing (时 间 )， : 
asynchronous inputs ( 异步 输入 ) ，B-76-77 
level- sensitive ( 电 平 敏感 )，B-75-76 
methodologies (方法 ) ，B-72-77 
two-phase (两 相 ) ，B-75 
TLB misses (TLB 缺失 ) ， 见 Translation- look aside 
buffer (TLB), 439 
entry point ( 人口 指 针 ) ，449 
handler (处 理 程序 ) ，449 
handling (处 理 ) ，446-453 
occurrence (事件 ) ，446 
problem (问题 ) ，453 
Tomasulo '" s algorithm (Tomasulo 算法 ) ，0L4. 16-3 
Touchscreen ( 触摸屏) ，19 
Tournament branch predicators (Toumament 分 支 预 
测 器 ) ，324 
Tracks (轨迹 ) ，381-382 
Transfer time (传输 时 间 ) ，383 
Transistors ( 晶体管 ) ，25 
Translation- Lookaside buffer (TLB， 前 脆 转 换 缓 冲 )， 
见 TLB misses, 438-439, E-26-27,OLS. 17-6 
associativities ( 相关 性 ) ，439 
illustrated (举例 说 明 ) ，438 
integration (集成 ) ，440-441 
Intrinsity FastMATH (内 建 FastMATH) ，440 
typical values (上 典型 值 ) ，439 
Transmit driver and NIC hardware time versus. receive 
driver and NIC hardware time (传输 驱动 和 NIC 
硬件 时 间接 收 驱动 和 NIC 硬件 时 间 ) ，0L6. 9-8 
Transmitter Control register ( 发 送 控制 寄存 器 ) ，A- 
39-40 
Transmitter Data register ( 发 送 数据 寄存 器 ) ，A-40 
Trap instructions (陷阱 指令 ) ，A-64-66 
Tree-based parallel scan (基于 树 的 并 行 扫 描 )， 
C-62 
Truth tables ( 真 值 表 ) ，B-5 
ALU control lines (ALU 控制 线 ) ，D-5 
for control bits (控制 位 ) ，260-261 
datapath control outputs (数据 通路 输出 ) ，D-17 
datapath control signals (数据 通路 控制 信号 ) ， 
D-14 
defined (定义 ) ，260 
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example (例子 ) ，B-5 
next- state output bits (下 一 状态 输出 位 )，D-15 
PLA implementation (PLA 实现 ) ，B-13 
Two'"s complement representation (二 进 制 补 码 表 
示 ) ，75-76 
advantage (优势 ) ，75-76 
negation shortcut ( 求 反 的 简便 方法 ) ，76 
rule (规则 ) ，79 
sign extension shortcut (符号 扩展 ) ，78 
Two-Ievel logic ( 两 级 逻辑 ) ，B-11-14 
Two- phase clocking (两 相 时 钟 )，B-75 
TX-2 computer (TX-2 计算 机 ) ，0L6. 15-4 


U 


Unconditional branches (无 条 件 分 支 ) ，91 
Underflow (下 洲 )，198 
Unicode (同一 的 字符 标准 编码 ) 
alphabets (字母 表 ) ，109 
defined (定义 ) ，110 
example alphabets (字母 表示 例子 ) ，110 
Unified GPU architecture (统一 的 GPU 架构 )，C- 
10-12 
illustrated (举例 说 明 )，C-11 
processor array ( 处理 器 阵列 )，C-11-12 
Uniform memory access (UMA, 一 致 性 存储 器 访 
问 ) ，$18 ，C-9 
multiprocessors ( 多 处 理 器 ) ，519 
Units (单位 ) | 
commit (提交 确认 ) ，339-340 ，343 
control (控制 ) ，247-248 ，259-261，D-4-8，D- 
10，D-12-13 
defined (定义 ) ，219 
floating point ( 浮 点 ) ，219 
hazard detection (冒险 检测 ) ，313 ，314-315 
for load/store implementation (装载 /存储 执 
行 ) ，255 
special function (SFU， 特 殊 功 能 ) ，C-35，C- 
43 ，C-50 
UNIVAC I (通用 自动 计算 机 一 号 ) ，OL1. 12-5 
UNIX (一 种 多 用 户 的 计算 机 操作 系统 ) ，0L2. 21- 
8, OLS. 17-9-5. 17-12 
AT&T (美国 电话 电报 公司 ) ，0L5. 17-10. 
Berkeley version (BSD，Berkeley 版 本 ) ，0L5. 17-10 
genius (天 才 品 牌 名 ) ，0L5. 17-12 
history ( 简 史 ) ，0L5. 17-9-5. 17-12 
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索 引 





Unlock synchronization (同步 解锁 ) ，121 
Unresolved references (未 决 的 引用 ) 
defined (定义 )，A-4 
linkers and (链接 器 ) ，A-18 
Unsigned numbers (无 符号 数 ) ，73-78 
Use latency (利用 延迟 时 间 ) 
defined (定义 ) ，336-337 
one-instruction (一 条 指令 ) ，336-337 


V 


Vacuum tubes ( 真空管) ，25 

Valid bit (有 效 位 ) ，386 

Variables ( 变量) 
C language (C 语言 ) ，102 
programming language (编程 语言 )，67 
register ( 寄存 器 ) ，67 
static (静态 ) ，102 
storage class (存储 类 别 ) ，102 
type (类 型 ) ，102 


VAX architecture (VAX 体系 结构 )，0L2.21- 4， 


OL5. 17-7 
Vector lanes ( 问 量 线路 ) ，512 


Vector processors (向 量 处 理 髓 )， 见 Processors， 


508-510 


conventional code comparison (传统 代码 比较 )， 


509-510 
instructions (指令 ) ，510 
multimedia extensions and (多 媒体 扩展 ) ，$11-512 
scalar versus (标量 ) ，510-511 
Vectored interrupts (向 量 中 断 ) ，327 
Verilog 


behavioral definition of MIPS ALU (MIPS ALU 的 


行为 定义 ) ，B-25 


behavioral definition with bypassing ( 旁 路 行为 的 


定义 ) ，0L4. 13-4-4. 13-6 


behavioral specification with stall for loads ( 加载 阻 


塞 的 行为 定义 ) ，0L4. 13-6-4. 13-8 


behavioral specification (行为 定义 )，B-21， 


OL4. 13-2-4. 13-4 


停顿 的 行为 定义 ) ，OL4. 13-6-4. 13-8 

behavioral specification with synthesis (综合 行为 
定义 ) ，0OL4. 13-11. -4. 13-16 

blocking assignment (阻塞 赋值 ) ，B-24 

branch hazard logic implementation (分 支 冒 险 逻 
辑 实 现 ) ，0L4. 13-8-4. 13-10 

combinational logic (组 合 逻辑 ) ，B-23-26 

datatypes (数据 类 型 ) ，B-21-22 

defined (定义 ) ，B-20 

forwarding implementation (转发 的 实现 ) ，OL4. 13-4 

MIPS ALU definition in (MIPS ALU 定义 )，B- 
35-38 

modules (模块 ) ，B-23 

multicycle MIPS datapath (多 周期 MIPS 数据 通 
路 ) ，0OL4. 13-14 

nonblocking assignment ( 非 阻塞 赋值 ) ，B-24 

operators (运算 符 ) ，B-22 

program structure (程序 结构 ) ，B-23 

reg (寄存 器 ) ，B-21-22 

sensitivity list ( 敏感 列表 ) ，B-24 

sequential logic specification (时 序 逻 辑 定义 )， 
B-56-58 

structural specification (结构 定义 ) ，B-21 

wire ( 线 型 )，B-21-22 


Vertical microcode (垂直 微 码 ) ，D-32 
Very large-scale integrated (VLSI) circuits (超大 规 


模 集成 电路 ) ，25 


Very Long Instruction Word ( VLIW， 超 长 指令 字 ) 


defined (定义 ) ，334-335 


first generation computers (第 一 代 计 算 机 )， 
O14. 16-5 


processors (处理 髓 ) ，335 


VHDL (一 种 硬件 编程 语言 ) ，B-20-21 
Video graphics array (VGA ) controllers (视频 图 形 


阵列 监控 器 ) ，C-3-4 


Virtual addresses ( 虚拟 地 址 ) 


causing page faults (导致 缺 页 ) ，449 
defined (定义 ) ，428 

mapping from (映射 ) ，428-429 

size (尺寸 )，430 


behavioral specification of multicycle MIPS design 
(多 周期 MIPS 行为 定义 的 设计 ) ，0L4. 13-12- 
4. 13-13 

behavioral specification with simulation (行为 定义 
仿真 ) ，0L4. 13-2 

behavioral specification with stall detection (预测 


Virtual machine monitors (VMMs， 虚 拟 机 监控 器 ) 


defined (定义 ) ，424 

implementing (实现 ) ，481 ，481-482 
laissez-faire attitude (不 干涉 的 态度 ) ，481 

page tables ( 页 表 ) ，452 

in performance improvement (在 提高 性 能 方 





面 ) ，427 
requirements (要 求 ) ，426 
Virtual machines ( VM， 虚拟 器 ) ，424-427 
benefits (收益 )，424 
defined (定义 ) ，A-41 
illusion (描述 ) ，452 
instruction set architecture support (指令 集体 系 结 
构 支 持 ) ，426-427 
performance improvement (性 能 提高 ) ，427 
for protection improvement (防护 的 改进 ) ，424 
simulation of (模拟 的 ) ，A-41-42 
Virtual memory ( 虚拟 存储 器 ) ， 见 Pages，427-454 
address translation ( 地址 转换 ) ，429 ，438-439 
integration (集成 ) ，440-441 
mechanism (机 制 ) ，452-453 
motivations (动机 ) ，427-428 
page faults ( 缺 页 ) ，428 ，434 
protection implementation (保护 的 实现 ) ，444-446 
segmentation (分 段 ) ，431 
summary (总 结 ) ，452-453 
virtualization of ( 虚拟 化 ) ，452 
writes ( 写 ) ，437 
Virtualizable hardware ( 虚拟 化 硬件 ) ，426 
Virtually addressed caches ( 虚 地 址 缓存 ) ，443 
Visual computing (视觉 计算 ) ，C-3 
Volatile memory ( 易 失 性 存储 器 ) ，22 


W 


Wafers ( 晶 元 ) ，26 
defects (缺陷 ) ，26 
dies (小 片 ) ，26-27 
yield (产量 ) ，27 
Warehouse Scale Computers ( WSC, 仓储 式 计 算 
机 )，7，531-533 ，558. 
Warps (Warps), 528, C-27 
Weak scaling ( 弱 缩放 ) ，505 
Wear levelling (损耗 均衡 ) ，381 
While loops (while 循环 ) ，92-93 
Whirlwind (旋风 计算 机 ) ，0L5. 17-2 
Wide area networks (WAN， 广 域 网 ) ， 见 Networks，24 
Words ( 字 ) 
accessing (访问 ) ，68 
defined (定义 ) ，66 
double ( 双 两 个 ) ，152 
load (负载 ) ，68，71 
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quad (四 四 个 )，154 
store (存储 ), 71 
Working set (工作 集 ) ，453 
World Wide Web ( 万维网 ) ，4 
Worst-case delay (最 坏 情况 下 的 延迟 ) ，272 
Write buffers ( 写 缓冲 器 ) 
defined (定义 ) ，394 
stalls ( 栈 ) ，399 
write-back cache ( 写 回 方式 的 高 速 缓存 ) ，395 
Write invalidate protocols ( 写 无 效 协议 )，468，469 
Write serialization (系列 写 ) ，467 
Write-back caches ( 写 回 高 速 缓存 ) ， 见 Caches 
advantages (优点 ) ，458 
cache coherency protocol (高 速 缓存 一 致 性 协 
议 ) ，0L5. 12-5 
complexity (复杂 性 ) ，395 
defined (定义 ) ，394 ，458 
stalls ( 栈 ) ，399 
write buffers ( 写 缓冲 )，395 
Write-back stage ( 写 回 阶段 ) 
control line (控制 线 ) ，302 
load instruction ( 加载 指 令 )，292 
store instruction (存储 指令 ) ，294 
Writes ( 写 ) 
complications (并 发 ) ，394 
expense (开销 ) ，453 
handling (处 理 ) ，393-395 
memory hierarchy handling of (存储 器 层次 的 处 
理 ), 457-458 
schemes (方案 ) ，394 
virtual memory (虚拟 存储 ) ，437 
write-back cache ( 写 回 式 高 速 缓存 ) ，394 ，395 
write-through cache ( 写 直达 高 速 缓存 ) ，394，395 
Write-stall cycles ( 写 停顿 周期 )，400 
Write-through caches ( 写 直 达 高 速 缓存 ) ， 见 Caches 
advantages (优点 ) ，458 
defined (定义 ) ，393 ，457 
tag mismatch (标签 不 匹配 ) ，394 


X 


x86 (x86 计算 机 ) ，149-158 
Advanced Vector Extensions in (高 级 矢量 扩展 ) ，225 
brief history ( 简 史 ) ，0L2. 21-6 
conclusion (结论 ) ，156-158 
data addressing modes (数据 寻 址 方式 ) ，152， 
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153-154 

evolution (评估 ) ，149-152 

first address specifier encoding ( 首 地 址 符 编 
人 码 )，158 

historical timeline (历史 时 间 表 ) ，149-152 

instruction encoding (指令 编码 ) ，155-156 

instruction formats (指令 格式 ) ，157 

instruction set growth (指令 集 增 长 ) ，161 

instruction types (指令 类 型 ) ，153 

integer operations (整数 运算 ) ，152-155 

registers (寄存 器 ) ，152 ，153-154 

SIMD in ( 单 指令 流 多 数据 流 )，507-508，508 

Streaming SIMD Extensions in ( 单 指令 多 数据 流 
扩展 ) ，224-225 

typical instructions/functions (典型 的 指令 / 功 


能 ) ，155 
typical operations ( 典型 操作 ) ，157 
Xerox Alto computer (Xerox Alto 计算 机 ) ，OL1. 12-8 
XMM (扩充 过 的 一 种 寄存 器 ) ，224 


Y 


Yahool Cloud Serving Benchmark (YCSB,， 云 服务 
基准 测试 程序 ) ，540 

Yield (收益 ) ，27 

YMM (将 寄存 器 宽度 再 次 扩充 的 一 种 寄存 
器 ) ，225 


Z 


Zettabyte ( 泽 字 节 (十 万 亿 亿 字 节 )), 6 
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te El 是 因为 每 次 再 版 都 不 仅仅 是 一 次 更 新 补充 ， 而 是 全 面 修订 ， 针 对 
这 个 激动 人 心 且 快 速 变化 的 领域 ， 给 予 我 们 最 及 时 的 信息 和 权威 的 解读 。 即 便 对 于 我 这 样 已 从 业 二 十 多 年 的 人 
来 说 ， 再 次 阅读 本 书 时 ， 依 旧 自 觉 学 无 止境 ， 感 佩 于 两 位 卓越 大 师 的 渊博 学 识 和 深厚 功底 。” 

一 Luiz Andre Barroso，Google 公 司 


“本 书 是 一 部 经 典 ， 犹 如 美酒 ， 历 久 而 弥 醇 。 只 有 Hennessy 和 Poatterson 才 可 能 接触 到 谷歌 、 亚 马 逊 、 
微软 等 云 计 算 与 互联 网 规模 的 应 用 提供 商 的 内 部 人 士 ， 对 这 一 重要 领域 ， 业 内 的 介绍 材料 无 出 其 右 。” 


一 一 James Hamilton，Amazon Web 服 务 


“《 计 算 机 体系 结构 : 量化 研究 方法 (第 5 版 ) 》 继 续 发 扬 传 统 ， 为 学 习 计算 机 体系 结构 的 学 生 提 供 了 当 
前 计算 平台 的 最 新 信息 ， 使 他 们 能 够 洞悉 体系 结构 ， 便 于 设计 未 来 系统 。 这 一 版 的 亮点 在 于 大 幅 修订 了 数据 级 
并 行 那 一 章 ， 用 传统 的 体系 结构 术语 清晰 地 解读 了 CPU 体系 结构 。” 


一 一 Krste Asanovi， 加 州 大 学 伯克利 分 校 


“本 书 已 经 成 为 一 本 经 典 教科 书 了 ， 这 一 ee bast on (数据 、 线 程 、 请 求 ) 的 兴 
起 ， 各 用 整整 一 章 来 描述 。 数 据 并 行 一 章 尤 为 夺目 : 通过 向 量 SIMD、 指 令 级 SIMD 和 GPU 的 对 比 ， 避 开 每 种 体 
系 结构 的 专用 术语 ， 揭 示 了 这 些 体系 结构 之 间 的 相似 与 区 别 。” 

















一 一 Kunle Olukotun， 斯 坦 福 大 学 


一 版 新 增加 了 一 章 非常 丰富 的 内 容 ， de SIMD 和 GPU 体 系 结构 中 的 数据 级 并 行 技 术 。 
它 解 释 了 应 用 于 大 众 市 场 的 GPU 内 部 的 关键 体系 结构 概念 ， 给 出 这 些 概念 与 传统 术语 的 对 应 关系 ， 并 与 向 量 
和 SIMD 体 系 结构 进行 了 对 比 。 这 一 内 容 非 常 及 时 ， 与 业内 转向 GPU 并 行 计算 的 潮流 相 适 应 。 《计算 机 体系 结 
构 : 量化 研究 方法 》 继 续 独 领 风骚 ， 全 面 地 介绍 了 体系 结构 方面 的 重大 新 进展 ! ” 


一 一 John Nickolls, NVIDIA 
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|apeode funet Binary “mal i deci- Char- 
1(31:26) ($:0) | mal acter mal acter 
[Im “00000 0 0 NOLI6 和 人 | 
| 000001 1 1SOH 6 4 A 
000010 2 2 STXi|66 42 B | 
0000I 3 3 ETX | 67 43 C 
“00000 4 4 EOrT| 6 4 D | 
[000I0 5 5 ENQ, 6 45 E | 
mov 0001I0 6 6 ACK| 70 46 下 
neg.f 00011ll 7 7 BEL| 71 47 G | 
100 Too 8 5 BS 7 48 HH 
001001 9 9 HT ,7 49 1 
001010 10 a LF |74 #4 1 
‘00 1011 11 b VT|75 4b K 
cuna.wf O00TIO0 TZ ee FF 76 于 EG | 
wf 00110l 13 d CR|77 4d M 
wf 001110 14 e SO 7 de N 
zw O01Ill 15 f Sl 17 4f 0 
0T0000 16 i0 DIETS80 WT | 
Ol000l 17 1 DCI 8 51 Q | 
rovzf O10010 18 12 DC2, $2 52 R 
movnf OIO0IL 19 13 DC3 #3 53 5S 
| oTol00 20 1 DC 和 T | 
| I010101 21 15 NAK | 85 5s U | 
| ‘ol ono 22 16 SYN | 86 S50 V 
| I010II1 23 17 ETB | 87 57 WwW 
| orI000 24 I CANY B88 Sg SX | 
mulr 01I001 25 19 EM 89 s YY 
0110I0 26 Ja SUB | 90 sa Zz 
5 oli0ll 27 Ib ESC | 9 sb I 
7 oni 28 Te FS | 9 Se 
oll01 29 ld Gs |93 5d J 
OILIIO 30 le RS | 94 Se *” 
ou 3 If US 95 5f 
ir os O0000 32 20 Spacc 9 60 "| 
: via M0000] 33 21 1! 97 6l a 
1 100010 34 22 *" 98 62 b 
| : 100011 35 23 上 # 99 63 ¢ 
Er em O000 36 24 S$ 1I00 64 dd 
hi £ I00101 37 25 % | 101 65 et 
:wz xz Ho00110 38 260 & 1I02 6 ff 
nor 001 39 27 103 67 g 
t 和 D1000 40 28 (0 TI 6 “ih 
| sn HO100] 41 29 ) 105 69 i 
| sx I+ 101010 42 2a * |106 6a } 
| situ i01011 43 2b + 1107 6b k | 
| oT 4 2 . lI0g 6 | 
1010L 45 2d lo 6d m | 
0110 4o 2e . 6e nn 
ON 47 2f / of 0o 
TO000 48 30 0 TI 70 | 
Il10001 49 3 1 3 7 4 
1100I0 50 32 2 14 72 rr | 
”M001 5 33 3 15 73 s 
/To S27 4 4 TI 7 tT 
4 uf OE 33 5° $ HH DB 
tne 1 0ll0 54 36 6 jllg 76 vv 
:lef |IIOIIL 55 37 7 |l9 77 w 
esf TTO00 $6 38 8 |I20 7 xX 
znglef |IIIO0L 57 39 9 | 79 y | 
qf |1110I0 5 3a3 : |l22 7 z | 
SOI S90 3b 3 3 WH 1 
ee I0 50 3 < [TI Te TT 
sdcl .ngef IIINO0l 6l 3d4 = |125 74 } 
sac2 = Hit 62 3c Il20 7c ~ 
:.agtf [li 63 3f ? 1127 7f DEL 














(1) opeode(31:26) =—= 0 


(2) opcode(31:26) = 1740n (Tped: if tmu(25:21)==10%0n (10pe) /= = (single); 
if fmt(25:21)==17cn (llpe) /= a (double) 


iEEE 754 FLOATING-POINT 
























































STANDARD IEEE 754 Symbols 
Exponent | Fraction Object 
(USx (1 + Fraction) x 2(Exponent- Bias) | 0 “| 0 4+0 
where Single Precision Bias = 127. 0 i #0 二 Denorm 
Double Precision Bias = 1023. 1toMAX- 1 anythingr FP, Num, 
MAX | 0 土 o | 
IEEE Single Precision and MAX 二 而 NaN | 
Double Precision Formats: SP MAX = 235, DP MAX=2047 
| 人 Exponent Fraction 
EE 3 国 9 0 
| S Exponent : Fraction L5 | 
站 sl 5 
MEMORY ALLOCATION STACK FRAME 





Memory 
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| Argument 6 | 


Memory 
Addresses 























一 
Ssp "ee Argument 6 | Addresses 
ee 
sp 
个 Baved Registers 
Dynamic Data Stack 
Sgp -P1000 8000,.、 Grows 
Static Data a We 
1000 0000i、 Local Variables | 
Ssp 
pe “P0040 0000\、 Lower 
Ophex Reserved 
DATA ALIGNMENT 
| Double Word 
Word Word 
| Halfword | Halfword Half\vord [ Halfword 
| Byte | Byte | Byte Byte | Byte | Byte | Byte | Byte 
0 = ee ee 和 


了 3 4 
Value of three least significant bits of byte address (Big Endian) 


EXCEPTION CONTROL REGISTERS: CAUSE AND STATUS 








B interrupt Exception 
D Mask Code 
SN 让 3 


Is 


al 
Pending | 
Interrupt 


1s RN 











了 0 
BD = Branch Delay, UM = User Mode, EL = Exception Level, IE =Interrupt Enable 


















































re Co 
0 Int errupt (hardware) 9 Bp - joint tic 
| -Address Error Exception Reserved Instruction 
4 (load or instmction fetch) 刘 RU Exception 
ww Address ErrorEXception | Coprocesser 
Si (store) PY Unimplemented 
i a BusErroron | Arihmetic Overtflow 
structionFech | Exception 
7 DBE Bis ENNon 13 Tr Trap 
Lon Or S(Ore: | = 
8 Sys call Exception is FPE Floating Point Exception 
SIZE PREFIXES 
| PREFIX SYMBUE SIZk | PREFIX 2 SF | PREFIX SYMBOL SIZE PREFIX | SYMAOL 
10 io: 从 2 Kibil LO 10% 和 Pp 














yl m | [es 
FE tp | | 2 om | mm | 10% | zeru 


410 | Ters -2 
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计算 机 组 成 与 设计 硬件 /软件 接口 原 书 第 5 版 


Computer Organization and Design The Hardware/Software Interface Fifth Edition 





这 是 一 本 应 该 保存 在 书架 上 的 计算 机 体系 结构 的 教材 。 本 书 既 陈旧 又 新 颖 ， 因 为 它 不 但 介绍 了 基本 原理 
摩尔 定律 、 抽 和 象 、 加 速 大 概率 事件 、 宛 余 、 存 储 器 层次 、 并 行 和 流水 线 ， 也 使 用 如 ARM Cortex A8 和 Intel Core i7 
等 现代 设计 对 这 些 基本 原理 进行 了 说 明 

一 一 Mark D. Hill, 威斯康星 大 党 麦迪 示 分 校 计 算 机 科学 系 教授 、 系 主任 


教材 的 选择 是 一 个 非常 令 人 肖 吕 的 折 训 过 程 教学 方法 、 内 容 的 履 盖 面 、 行 文 造句 的 质量 、 描 述 的 精确 程 
、 成 本 ee 要 考虑 。 这 是 一 本 不 需要 在 这 些 方面 进行 折衷 且 涉 及 各 个 方面 的 书 。 它 不 仅 是 一 部 计算 机 组 成 的 
es 是 所 有 计算 机 科学 教科 书 的 范本 





一 一 Michael Goldweber，Xavier 大 学 计算 机 科学 系 教授 


当前 ， 半 导体 加 工 工艺 按 比 例 缩小 的 困难 是 系统 功 耗 的 限制 ， 在 移动 系统 和 大 数据 处 理 器 领域 ， 该 限制 与 不 
断 增 长 的 ， 性 能 需 求 之 间 的 矛盾 越 来 越 尖 锐 。 第 5 版 除了 为 读者 提供 计算 机 体系 结构 的 介绍 ， 还 为 读者 准备 了 为 应 
对 该 矛盾 而 必须 在 设计 方面 做 的 修改 。 在 这 个 计算 技术 的 新 领域 ， 必 须 进 行 软 硬 件 协同 设计 ， 另 外 ， 系 统 
结构 优化 与 部 件 级 优化 一 样 重要 
一 一 Christors Kozyrakis， 斯 专 福 天 学 电子 工程 和 计算 机 科学 系 副 教授 


本 书 是 计算 机 组 成 与 设计 的 经 典 畅销 教材 ， 第 5 版 经 过 全 面 更 新 ， 关 注 后 PC 时 代 发 生 在 计算 机 体系 结构 领域 
的 革命 性 变革 一 一 从 单 核 处 理 器 到 多 核 微 处 理 器 ， 从 串 行 到 并 行 。 本 书 特别 关注 移动 计算 和 云 计算 ， 通 过 平板 电 
脑 、 云 体系 结构 以 及 ARM ( 移动 计算 设备 ) 和 x86 ( 云 计 算 ) 体系 结构 来 探索 和 揭示 这 场 技术 变革 。 
与 前 几 版 一 样 ， 本 书 采用 MIPS 处 理 器 讲解 计算 机 硬件 技术 、 汇 编 语言 、 计 算 机 算术 、 流 水 线 、 存 储 器 层次 
结构 以 及 I/O 等 基本 功能 。 


本 书 特色 

@ 更 新 例题 、 练 习题 和 参考 资料 ， 重 点 关注 移动 计算 和 云 计算 这 两 个 新 领域 。 
DE VE ES 
主题 。 

全 书 采用 Intel Core i7、ARM Cortex A8 和 NVIDIA Fermi GPU 作为 实例 。 

@ 增加 “运行 更 快 ” 这 一 新 实例 ， 说 明正 确 理解 硬件 技术 的 重要 性 ， 它 能 使 软件 性 能 提高 200 倍 。 

讨论 并 强调 计算 机 体系 结构 的 “8 个 伟大 思想 ”一 一 通过 并 行 提 高 性 能 、 通 过 流水 线 提高 性 能 、 通 过 预测 提高 
性 能 、 面 向 摩尔 定律 的 设计 、 存 储 器 层次 、 使 用 抽象 简化 设计 、 加 速 大 概率 事件 和 通过 元 余 提 高 可 靠 性 。 
访问 本 书 配套 网 站 ( textbooks.elsevier.com/9780124077263 ) 可 获取 更 多 资源 ， 包 括 深入 学 习 所 需 的 高 级 内 
容 、 附 录 、 术 语 表 、 参 考 文献 以 及 推荐 阅读 材料 。 





上 架 指导 : 计算 机 \ 计 算 机 组 成 
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华章 网 站 : www.hzbook.com 11115048251> 
网 上 购书 : www.china-pub.com 
数字 阅读 : www.hzmedia.com.cn 定价 : 99.00 元 





本 书 译 自 原版 Computer Organization 
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